核心要点
MLOps 的核心 artifact 是代码+数据+模型三件套,不止 DevOps 的代码+配置
测试要加数据验证与模型评估,监控要加数据漂移与模型退化——服务会随时间变差
CI/CD 之外多了 CT(持续训练),由数据驱动触发重训,是 ML 独有环节
MLOps 是 DevOps 的扩展而非替代,仍复用 Git、容器、K8s、IaC 等同一套基础
标准回答
MLOps:机器学习运维,把 ML 从实验 reproducible 地推向生产的实践体系。
与 DevOps 对比:
| 维度 | DevOps | MLOps |
|---|---|---|
| 核心 artifact | 代码 + 配置 | 代码 + 数据 + 模型 |
| 测试 | 单元/集成测试 | + 数据验证、模型评估、偏差检测 |
| 部署对象 | 确定性服务 | 可能随数据/时间退化的模型 |
| 监控 | 延迟/错误率 | + 数据漂移、预测分布、公平性 |
| 回滚 | 版本回退 | 模型 + 特征 schema 回退 |
| 持续集成 | CI/CD | CI/CD/CT(Continuous Training) |
共同点:Git、容器、K8s、IaC、自动化流水线、可观测性。
MLOps 独有挑战:实验不可复现、训练与 serving 特征不一致(train/serve skew)、模型静默退化(silent decay)。详见 MLOps 入门、MLOps vs DevOps。
常见误区
⚠️ 常见踩坑
说 MLOps 就是 DevOps 换名;忽略数据/模型版本与漂移监控;不提 CT 或特征一致性。
追问
追问 1:什么是 Continuous Training(CT)?
数据更新触发自动重训、评估、达标则部署。需防劣化模型上线(质量门禁)与训练资源调度。与 CI 触发条件不同(数据驱动 vs 代码驱动)。
追问 2:MLOps 团队应有哪些角色?
数据科学家(建模)、ML 工程师(流水线/服务)、数据工程师(数据质量)、DevOps/SRE(基础设施)、PM(指标定义)。职责交叉需平台化降摩擦。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具