机器学习场景下 CI/CD 是什么？如何实践？

Question 1

Accepted Answer

传统 CI/CD 针对代码；ML CI/CD 扩展为： CI（Continuous Integration）： - 代码：lint、单元测试、特征 transform 测试 - 数据：schema 验证、分布快照对比 - 模型：小数据集 smoke training、metric 回归测试（不低于 baseline） CD（Continuous Delivery/Deployment）： - 评估通过 → 构建推理镜像 → Staging → 金丝雀 → Production - 模型 artifact 从 Registry 拉取，非手工拷贝 CT（Continuous Training）——ML 特有： - 新数据到达或漂移告警 → 自动触发训练 pipeline - 新模型 beat 旧模型 → 自动进入 CD 流程 典型 GitHub Actions / GitLab CI 阶段： lint → data-test → train → evaluate → register → deploy-staging → integration-test → promote 关键：质量门禁（metric 阈值、公平性）阻断劣质模型上线。详见 MLOps 入门、CI/CD 实践。

Question 2

ML 流水线 CI 跑全量训练是否可行？

Accepted Answer

通常不在 CI 里跑全量训练——耗时数小时到数天、占用昂贵 GPU，会拖垮反馈速度。CI 用小样本做 smoke training 验证代码能跑通、形状/损失正常；全量训练交给独立的训练流水线（CT）异步执行，再由门禁决定是否晋级。

Question 3

如何测试机器学习代码？

Accepted Answer

分层测试：单元测试覆盖数据转换、特征工程等确定性函数；用小数据集做 smoke training 验证训练循环不崩；对模型做行为/指标回归测试（关键指标不低于 baseline、不变性测试如同义改写预测应稳定）；再加数据校验测试（schema、空值率、分布）。

Question 4

蓝绿部署 vs 金丝雀在 ML 中？

Accepted Answer

蓝绿：流量一键切换，回滚快；金丝雀：5%→50%→100% 逐步验证线上 metric，适合观察模型真实业务影响。常结合 shadow（新模型只记录不返回）。

机器学习场景下 CI/CD 是什么？如何实践？

核心要点

标准回答

常见误区

追问

延伸学习