核心要点

  • MLOps 的核心 artifact 是代码+数据+模型三件套,不止 DevOps 的代码+配置

  • 测试要加数据验证与模型评估,监控要加数据漂移与模型退化——服务会随时间变差

  • CI/CD 之外多了 CT(持续训练),由数据驱动触发重训,是 ML 独有环节

  • MLOps 是 DevOps 的扩展而非替代,仍复用 Git、容器、K8s、IaC 等同一套基础

简要回答

MLOps:机器学习运维,把 ML 从实验 reproducible 地推向生产的实践体系;

与 DevOps 对比

维度 DevOps MLOps
核心 artifact 代码 + 配置 代码 + 数据 + 模型
测试 单元/集成测试 + 数据验证、模型评估、偏差检测
部署对象 确定性服务 可能随数据/时间退化的模型
监控 延迟/错误率 + 数据漂移、预测分布、公平性
回滚 版本回退 模型 + 特征 schema 回退
持续集成 CI/CD CI/CD/CT(Continuous Training)

共同点:Git、容器、K8s、IaC、自动化流水线、可观测性

标准回答

MLOps:机器学习运维,把 ML 从实验 reproducible 地推向生产的实践体系。

与 DevOps 对比

维度 DevOps MLOps
核心 artifact 代码 + 配置 代码 + 数据 + 模型
测试 单元/集成测试 + 数据验证、模型评估、偏差检测
部署对象 确定性服务 可能随数据/时间退化的模型
监控 延迟/错误率 + 数据漂移、预测分布、公平性
回滚 版本回退 模型 + 特征 schema 回退
持续集成 CI/CD CI/CD/CT(Continuous Training)

共同点:Git、容器、K8s、IaC、自动化流水线、可观测性。

MLOps 独有挑战:实验不可复现、训练与 serving 特征不一致(train/serve skew)、模型静默退化(silent decay)。详见 MLOps 入门MLOps vs DevOps

常见误区

⚠️ 常见踩坑

说 MLOps 就是 DevOps 换名;忽略数据/模型版本与漂移监控;不提 CT 或特征一致性。

追问

追问 1什么是 Continuous Training(CT)?

数据更新触发自动重训、评估、达标则部署。需防劣化模型上线(质量门禁)与训练资源调度。与 CI 触发条件不同(数据驱动 vs 代码驱动)。

追问 2MLOps 团队应有哪些角色?

数据科学家(建模)、ML 工程师(流水线/服务)、数据工程师(数据质量)、DevOps/SRE(基础设施)、PM(指标定义)。职责交叉需平台化降摩擦。

追问 3小团队如何轻量化 MLOps?

按痛点渐进采纳,别一上来搭全套平台:先用 MLflow 做实验跟踪+模型注册,用 Docker 固化环境、DVC 或版本化表管数据,CI 跑数据校验与指标回归,上线后接最基础的漂移/性能监控。等模型数量和业务关键性上来再引入特征平台、CT 等。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。