什么是 MLOps？它与 DevOps 有何区别？

Question 1

Accepted Answer

MLOps：机器学习运维，把 ML 从实验 reproducible 地推向生产的实践体系。 与 DevOps 对比： 维度 DevOps MLOps ------ -------- ------- 核心 artifact 代码 + 配置 代码 + 数据 + 模型 测试 单元/集成测试 + 数据验证、模型评估、偏差检测 部署对象 确定性服务 可能随数据/时间退化的模型 监控 延迟/错误率 + 数据漂移、预测分布、公平性 回滚 版本回退 模型 + 特征 schema 回退 持续集成 CI/CD CI/CD/CT（Continuous Training） 共同点：Git、容器、K8s、IaC、自动化流水线、可观测性。 MLOps 独有挑战：实验不可复现、训练与 serving 特征不一致（train/serve skew）、模型静默退化（silent decay）。详见 MLOps 入门、MLOps vs DevOps。

Question 2

什么是 Continuous Training（CT）？

Accepted Answer

数据更新触发自动重训、评估、达标则部署。需防劣化模型上线（质量门禁）与训练资源调度。与 CI 触发条件不同（数据驱动 vs 代码驱动）。

Question 3

MLOps 团队应有哪些角色？

Accepted Answer

数据科学家（建模）、ML 工程师（流水线/服务）、数据工程师（数据质量）、DevOps/SRE（基础设施）、PM（指标定义）。职责交叉需平台化降摩擦。

Question 4

小团队如何轻量化 MLOps？

Accepted Answer

按痛点渐进采纳，别一上来搭全套平台：先用 MLflow 做实验跟踪+模型注册，用 Docker 固化环境、DVC 或版本化表管数据，CI 跑数据校验与指标回归，上线后接最基础的漂移/性能监控。等模型数量和业务关键性上来再引入特征平台、CT 等。

什么是 MLOps？它与 DevOps 有何区别？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


维度	DevOps	MLOps
核心 artifact	代码 + 配置	代码 + 数据 + 模型
测试	单元/集成测试	+ 数据验证、模型评估、偏差检测
部署对象	确定性服务	可能随数据/时间退化的模型
监控	延迟/错误率	+ 数据漂移、预测分布、公平性
回滚	版本回退	模型 + 特征 schema 回退
持续集成	CI/CD	CI/CD/CT（Continuous Training）