核心要点
生命周期不是直线而是闭环:监控发现漂移要能反向触发数据工程与再训练
每个阶段都有可验证的交付物与门禁——数据有 schema 校验、模型有指标阈值,未达标不放行
数据与模型必须像代码一样版本化,才能复现「三个月前那个上线版本」
区分 CI/CD(代码驱动)与 CT(数据驱动),后者是 ML 生命周期独有环节
标准回答
MLOps 生命周期关键阶段:
1. 问题定义 & 指标
- 业务 KPI → ML 可优化指标(AUC、NDCG、延迟)
- 成功标准与伦理约束
2. 数据获取 & 验证
- 采集、清洗、标注;schema/分布验证(Great Expectations)
- 数据版本化(DVC)
3. 特征工程
- 特征定义、商店 materialize;train/val/test 划分(时序注意泄漏)
4. 实验 & 训练
- 超参搜索、分布式训练;实验跟踪(MLflow)
- 产出 Checkpoint 与评估报告
5. 模型验证 & 注册
- 离线指标 + 公平性/鲁棒性测试
- 注册到 Model Registry,晋级 Staging
6. 部署
- 容器化、金丝雀/A-B;CI/CD 自动化
7. 监控 & 运维
- 数据漂移、概念漂移、延迟/成本
- 告警 → 根因分析 → 重训或回滚
常见误区
⚠️ 常见踩坑
生命周期停在「部署」不提监控;各阶段交付物含糊;不说闭环重训。
追问
追问 1:哪个阶段最容易被忽视?
监控与数据验证。模型上线后 silent decay 常见;无漂移检测则数月后业务指标下滑才被发现。应上线首日就接入监控。
追问 2:CRISP-DM 和 MLOps 生命周期关系?
CRISP-DM 是数据挖掘方法论(业务理解→部署);MLOps 在其上加强自动化、版本化、DevOps 集成与持续监控,更适合生产迭代。
追问 3:如何做阶段门禁(quality gate)?
每个阶段定义可自动判定的通过条件并在流水线中强制执行:数据阶段用 schema/分布校验(如空值率、分布漂移阈值),训练阶段要求关键指标不低于线上 baseline,部署前跑公平性与鲁棒性测试。未达标自动阻断并告警,避免人工放水。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- BentoML
AI 模型服务化框架,8.6K+ stars。最简化的方式部署 AI 应用和模型,支持模型推理 API、任务队列、LLM 服务等,是模型从实验到生产的桥梁
- Great Expectations
数据质量和验证框架,帮助团队定义、测试和文档化数据期望值,确保数据管道的可靠性。
- MLflow
开源 AI 工程平台,26K+ stars。面向 Agent、LLM 和 ML 模型的端到端生命周期管理平台,支持实验追踪、模型注册、部署和监控