核心要点

  • 按职能记忆工具链:实验跟踪、数据版本、编排、特征存储、模型注册、推理、监控

  • 区分自建开源(MLflow+Docker+K8s)与云托管一站式(SageMaker/Vertex/Azure ML)的取舍

  • 选型看团队规模、现有 DevOps/Git 集成与合规——金融等需选支持 lineage 的方案

  • 能讲清相邻概念区别:实验跟踪 vs 模型注册、特征存储 vs 普通数据库

简要回答

按功能分类

类别 代表工具
实验跟踪 MLflow, Weights & Biases, Neptune
数据版本 DVC, LakeFS, Pachyderm
流水线编排 Kubeflow, Airflow, Metaflow, ZenML
特征存储 Feast, Tecton, Hopsworks
模型注册 MLflow Model Registry, SageMaker Model Registry
训练框架 PyTorch, TensorFlow, Ray Train
推理服务 BentoML, TorchServe, Triton, vLLM
容器编排 Docker, Kubernetes
监控 Prometheus+Grafana, Evidently, WhyLabs

云平台:AWS SageMaker、GCP Vertex AI、Azure ML 提供托管一站式;

选型建议:小团队从 MLflow + Docker + K8s 起步

标准回答

按功能分类

类别 代表工具
实验跟踪 MLflow, Weights & Biases, Neptune
数据版本 DVC, LakeFS, Pachyderm
流水线编排 Kubeflow, Airflow, Metaflow, ZenML
特征存储 Feast, Tecton, Hopsworks
模型注册 MLflow Model Registry, SageMaker Model Registry
训练框架 PyTorch, TensorFlow, Ray Train
推理服务 BentoML, TorchServe, Triton, vLLM
容器编排 Docker, Kubernetes
监控 Prometheus+Grafana, Evidently, WhyLabs

云平台:AWS SageMaker、GCP Vertex AI、Azure ML 提供托管一站式。

选型建议:小团队从 MLflow + Docker + K8s 起步;大企业评估与现有 DevOps/Git 集成;金融等需审计选支持 lineage 的方案。详见 MLOps 工具生态

常见误区

⚠️ 常见踩坑

罗列工具不说场景;把 Jupyter 当成 MLOps 平台;忽视特征商店与模型注册的区别。

追问

追问 1MLflow 解决什么核心问题?

实验参数/指标/artifact 跟踪、模型打包与注册、多阶段部署。开源、易集成,但大规模多租户需额外工程。

追问 2Kubeflow 和 Airflow 如何分工?

Airflow 是通用 DAG 调度器,擅长数据 ETL 等定时编排;Kubeflow Pipelines 面向 ML、原生跑在 K8s 上,每步是容器、便于 GPU 调度与实验/产物追踪。常见组合:Airflow 编排上游数据管道,Kubeflow 跑训练/部署的 ML 流水线,二者并非互斥。

追问 3LLM 时代 MLOps 工具有何变化?

重心从「训练自有模型」转向「编排与服务大模型」:出现 vLLM/TGI 等高吞吐推理框架提示词/链路用 LangChain 等编排,评估从单一指标转向 LLM-as-judge 与人工评测,可观测性新增 token 成本、幻觉、提示注入等维度。传统实验跟踪/注册仍适用于微调场景。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • BentoML

    AI 模型服务化框架,8.6K+ stars。最简化的方式部署 AI 应用和模型,支持模型推理 API、任务队列、LLM 服务等,是模型从实验到生产的桥梁

  • Weights & Biases

    AI 开发者平台,用于模型训练、微调、实验管理和生产部署,支持从实验到生产的全流程管理。

  • Tensorflow

    全球最流行的机器学习框架之一,195K+ stars。Google 开源的端到端 ML 平台,支持 TensorFlow、Keras 等多种 API,覆盖深度学习、强化学习、移动端部署等全场景,是 AI 工程师的必备工具

  • Prometheus

    开源监控系统和时序数据库,CNCF 毕业项目。采用多维数据模型和 PromQL 查询语言,是云原生和 AI 基础设施监控的事实标准,可与 Grafana 无缝集成。

  • LangChain

    最流行的 LLM 应用开发框架,137K+ stars。提供链式编排、RAG 检索增强生成、Agent 构建等核心能力,覆盖 Python 和 JavaScript 双语言生态,是构建 LLM 应用的基础设施

  • Evidently

    开源 ML/LLM 可观测性框架,提供 100+ 指标用于评估、测试和监控 AI 系统,从表格数据到生成式 AI 全覆盖