核心要点

  • 生命周期不是直线而是闭环:监控发现漂移要能反向触发数据工程与再训练

  • 每个阶段都有可验证的交付物与门禁——数据有 schema 校验、模型有指标阈值,未达标不放行

  • 数据与模型必须像代码一样版本化,才能复现「三个月前那个上线版本」

  • 区分 CI/CD(代码驱动)与 CT(数据驱动),后者是 ML 生命周期独有环节

简要回答

MLOps 生命周期关键阶段

1. 问题定义 & 指标

  • 业务 KPI → ML 可优化指标(AUC、NDCG、延迟
  • 成功标准与伦理约束

2. 数据获取 & 验证

3. 特征工程

  • 特征定义、商店 materialize

标准回答

MLOps 生命周期关键阶段

1. 问题定义 & 指标

  • 业务 KPI → ML 可优化指标(AUC、NDCG、延迟)
  • 成功标准与伦理约束

2. 数据获取 & 验证

  • 采集、清洗、标注;schema/分布验证(Great Expectations)
  • 数据版本化(DVC)

3. 特征工程

  • 特征定义、商店 materialize;train/val/test 划分(时序注意泄漏)

4. 实验 & 训练

  • 超参搜索、分布式训练;实验跟踪(MLflow
  • 产出 Checkpoint 与评估报告

5. 模型验证 & 注册

  • 离线指标 + 公平性/鲁棒性测试
  • 注册到 Model Registry,晋级 Staging

6. 部署

  • 容器化、金丝雀/A-B;CI/CD 自动化

7. 监控 & 运维

  • 数据漂移、概念漂移、延迟/成本
  • 告警 → 根因分析 → 重训或回滚

闭环:监控异常触发 CT(Continuous Training)或人工介入。详见 MLOps 入门模型生命周期

常见误区

⚠️ 常见踩坑

生命周期停在「部署」不提监控;各阶段交付物含糊;不说闭环重训。

追问

追问 1哪个阶段最容易被忽视?

监控与数据验证。模型上线后 silent decay 常见;无漂移检测则数月后业务指标下滑才被发现。应上线首日就接入监控。

追问 2CRISP-DM 和 MLOps 生命周期关系?

CRISP-DM 是数据挖掘方法论(业务理解→部署);MLOps 在其上加强自动化、版本化、DevOps 集成与持续监控,更适合生产迭代。

追问 3如何做阶段门禁(quality gate)?

每个阶段定义可自动判定的通过条件并在流水线中强制执行:数据阶段用 schema/分布校验(如空值率、分布漂移阈值),训练阶段要求关键指标不低于线上 baseline,部署前跑公平性与鲁棒性测试。未达标自动阻断并告警,避免人工放水。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。

🛠️ AI 工具

  • BentoML

    AI 模型服务化框架,8.6K+ stars。最简化的方式部署 AI 应用和模型,支持模型推理 API、任务队列、LLM 服务等,是模型从实验到生产的桥梁

  • Great Expectations

    数据质量和验证框架,帮助团队定义、测试和文档化数据期望值,确保数据管道的可靠性。

  • MLflow

    开源 AI 工程平台,26K+ stars。面向 Agent、LLM 和 ML 模型的端到端生命周期管理平台,支持实验追踪、模型注册、部署和监控