MLOps 生命周期包含哪些关键阶段？

Question 1

MLOps 生命周期包含哪些关键阶段？

Accepted Answer

MLOps 生命周期关键阶段： 1. 问题定义 & 指标 - 业务 KPI → ML 可优化指标（AUC、NDCG、延迟） - 成功标准与伦理约束 2. 数据获取 & 验证 - 采集、清洗、标注；schema/分布验证（Great Expectations） - 数据版本化（DVC） 3. 特征工程 - 特征定义、商店 materialize；train/val/test 划分（时序注意泄漏） 4. 实验 & 训练 - 超参搜索、分布式训练；实验跟踪（MLflow） - 产出 Checkpoint 与评估报告 5. 模型验证 & 注册 - 离线指标 + 公平性/鲁棒性测试 - 注册到 Model Registry，晋级 Staging 6. 部署 - 容器化、金丝雀/A-B；CI/CD 自动化 7. 监控 & 运维 - 数据漂移、概念漂移、延迟/成本 - 告警 → 根因分析 → 重训或回滚 闭环：监控异常触发 CT（Continuous Training）或人工介入。详见 MLOps 入门、模型生命周期。

Question 2

哪个阶段最容易被忽视？

Accepted Answer

监控与数据验证。模型上线后 silent decay 常见；无漂移检测则数月后业务指标下滑才被发现。应上线首日就接入监控。

Question 3

CRISP-DM 和 MLOps 生命周期关系？

Accepted Answer

CRISP-DM 是数据挖掘方法论（业务理解→部署）；MLOps 在其上加强自动化、版本化、DevOps 集成与持续监控，更适合生产迭代。

Question 4

如何做阶段门禁（quality gate）？

Accepted Answer

每个阶段定义可自动判定的通过条件并在流水线中强制执行：数据阶段用 schema/分布校验（如空值率、分布漂移阈值），训练阶段要求关键指标不低于线上 baseline，部署前跑公平性与鲁棒性测试。未达标自动阻断并告警，避免人工放水。

MLOps 生命周期包含哪些关键阶段？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习