核心要点
按职能记忆工具链:实验跟踪、数据版本、编排、特征存储、模型注册、推理、监控
区分自建开源(MLflow+Docker+K8s)与云托管一站式(SageMaker/Vertex/Azure ML)的取舍
选型看团队规模、现有 DevOps/Git 集成与合规——金融等需选支持 lineage 的方案
能讲清相邻概念区别:实验跟踪 vs 模型注册、特征存储 vs 普通数据库
简要回答
按功能分类:
| 类别 | 代表工具 |
|---|---|
| 实验跟踪 | MLflow, Weights & Biases, Neptune |
| 数据版本 | DVC, LakeFS, Pachyderm |
| 流水线编排 | Kubeflow, Airflow, Metaflow, ZenML |
| 特征存储 | Feast, Tecton, Hopsworks |
| 模型注册 | MLflow Model Registry, SageMaker Model Registry |
| 训练框架 | PyTorch, TensorFlow, Ray Train |
| 推理服务 | BentoML, TorchServe, Triton, vLLM |
| 容器编排 | Docker, Kubernetes |
| 监控 | Prometheus+Grafana, Evidently, WhyLabs |
云平台:AWS SageMaker、GCP Vertex AI、Azure ML 提供托管一站式;
选型建议:小团队从 MLflow + Docker + K8s 起步
标准回答
按功能分类:
| 类别 | 代表工具 |
|---|---|
| 实验跟踪 | MLflow, Weights & Biases, Neptune |
| 数据版本 | DVC, LakeFS, Pachyderm |
| 流水线编排 | Kubeflow, Airflow, Metaflow, ZenML |
| 特征存储 | Feast, Tecton, Hopsworks |
| 模型注册 | MLflow Model Registry, SageMaker Model Registry |
| 训练框架 | PyTorch, TensorFlow, Ray Train |
| 推理服务 | BentoML, TorchServe, Triton, vLLM |
| 容器编排 | Docker, Kubernetes |
| 监控 | Prometheus+Grafana, Evidently, WhyLabs |
云平台:AWS SageMaker、GCP Vertex AI、Azure ML 提供托管一站式。
选型建议:小团队从 MLflow + Docker + K8s 起步;大企业评估与现有 DevOps/Git 集成;金融等需审计选支持 lineage 的方案。详见 MLOps 工具生态。
常见误区
⚠️ 常见踩坑
罗列工具不说场景;把 Jupyter 当成 MLOps 平台;忽视特征商店与模型注册的区别。
追问
追问 1:MLflow 解决什么核心问题?
实验参数/指标/artifact 跟踪、模型打包与注册、多阶段部署。开源、易集成,但大规模多租户需额外工程。
追问 2:Kubeflow 和 Airflow 如何分工?
Airflow 是通用 DAG 调度器,擅长数据 ETL 等定时编排;Kubeflow Pipelines 面向 ML、原生跑在 K8s 上,每步是容器、便于 GPU 调度与实验/产物追踪。常见组合:Airflow 编排上游数据管道,Kubeflow 跑训练/部署的 ML 流水线,二者并非互斥。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- BentoML
AI 模型服务化框架,8.6K+ stars。最简化的方式部署 AI 应用和模型,支持模型推理 API、任务队列、LLM 服务等,是模型从实验到生产的桥梁
- Weights & Biases
AI 开发者平台,用于模型训练、微调、实验管理和生产部署,支持从实验到生产的全流程管理。
- Tensorflow
全球最流行的机器学习框架之一,195K+ stars。Google 开源的端到端 ML 平台,支持 TensorFlow、Keras 等多种 API,覆盖深度学习、强化学习、移动端部署等全场景,是 AI 工程师的必备工具
- Prometheus
开源监控系统和时序数据库,CNCF 毕业项目。采用多维数据模型和 PromQL 查询语言,是云原生和 AI 基础设施监控的事实标准,可与 Grafana 无缝集成。
- LangChain
最流行的 LLM 应用开发框架,137K+ stars。提供链式编排、RAG 检索增强生成、Agent 构建等核心能力,覆盖 Python 和 JavaScript 双语言生态,是构建 LLM 应用的基础设施
- Evidently
开源 ML/LLM 可观测性框架,提供 100+ 指标用于评估、测试和监控 AI 系统,从表格数据到生成式 AI 全覆盖