MLOps 常用哪些工具与平台？

Question 1

MLOps 常用哪些工具与平台？

Accepted Answer

按功能分类： 类别 代表工具 ------ ---------- 实验跟踪 MLflow, Weights & Biases, Neptune 数据版本 DVC, LakeFS, Pachyderm 流水线编排 Kubeflow, Airflow, Metaflow, ZenML 特征存储 Feast, Tecton, Hopsworks 模型注册 MLflow Model Registry, SageMaker Model Registry 训练框架 PyTorch, TensorFlow, Ray Train 推理服务 BentoML, TorchServe, Triton, vLLM 容器编排 Docker, Kubernetes 监控 Prometheus+Grafana, Evidently, WhyLabs 云平台：AWS SageMaker、GCP Vertex AI、Azure ML 提供托管一站式。 选型建议：小团队从 MLflow + Docker + K8s 起步；大企业评估与现有 DevOps/Git 集成；金融等需审计选支持 lineage 的方案。详见 MLOps 工具生态。

Question 2

MLflow 解决什么核心问题？

Accepted Answer

实验参数/指标/artifact 跟踪、模型打包与注册、多阶段部署。开源、易集成，但大规模多租户需额外工程。

Question 3

Kubeflow 和 Airflow 如何分工？

Accepted Answer

Airflow 是通用 DAG 调度器，擅长数据 ETL 等定时编排；Kubeflow Pipelines 面向 ML、原生跑在 K8s 上，每步是容器、便于 GPU 调度与实验/产物追踪。常见组合：Airflow 编排上游数据管道，Kubeflow 跑训练/部署的 ML 流水线，二者并非互斥。

Question 4

LLM 时代 MLOps 工具有何变化？

Accepted Answer

重心从「训练自有模型」转向「编排与服务大模型」：出现 vLLM/TGI 等高吞吐推理框架，提示词/链路用 LangChain 等编排，评估从单一指标转向 LLM-as-judge 与人工评测，可观测性新增 token 成本、幻觉、提示注入等维度。传统实验跟踪/注册仍适用于微调场景。

MLOps 常用哪些工具与平台？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


类别	代表工具
实验跟踪	MLflow, Weights & Biases, Neptune
数据版本	DVC, LakeFS, Pachyderm
流水线编排	Kubeflow, Airflow, Metaflow, ZenML
特征存储	Feast, Tecton, Hopsworks
模型注册	MLflow Model Registry, SageMaker Model Registry
训练框架	PyTorch, TensorFlow, Ray Train
推理服务	BentoML, TorchServe, Triton, vLLM
容器编排	Docker, Kubernetes
监控	Prometheus+Grafana, Evidently, WhyLabs