一个机器学习项目从立项到上线有哪些阶段？

Question 1

Accepted Answer

ML 项目是一个闭环，不是一次性的瀑布流。 1. 业务理解与问题定义 - 明确要解决的业务问题、可衡量的成功标准（如转化率、召回成本）。 - 把业务目标翻译成 ML 问题（分类/回归/排序）和对应的离线指标。 2. 数据收集与理解 - 评估数据可得性、质量、标签来源，做 EDA 理解分布与缺失。 - 这一步常被低估，却决定上限。 3. 特征工程与建模 - 先做 Baseline，再逐步加复杂度；保证训练/线上特征一致。 4. 评估 - 离线用合理切分与切片指标；上线前用 A/B 测试验证业务指标。 5. 部署 - 工程化：数据管线、特征服务、延迟、可扩展、回滚。 6. 监控与迭代 - 监控数据漂移、模型衰减、线上指标；触发回到前面的环节重训迭代，形成数据飞轮。 关键是业务指标贯穿全程——模型 AUC 提升但业务无收益等于没做。

Question 2

哪个阶段最容易被低估、最影响最终效果？

Accepted Answer

数据收集与理解阶段。数据质量与标签质量决定模型上限，但常被压缩。问题定义同样关键——把业务问题翻译错了，后面再优化也是南辕北辙。

Question 3

为什么说 ML 项目是循环而非瀑布？

Accepted Answer

因为上线后会遇到数据漂移、长尾 badcase、业务变化，监控会持续暴露新问题，需要回到数据/特征/建模重新迭代。模型是"活的"，要持续重训与评估，不是交付一次就结束。

Question 4

如何把业务指标和模型指标对齐？

Accepted Answer

先定义业务北极星指标，再找与之相关性高的可离线优化的代理指标（proxy），离线用代理指标快速迭代，上线用 A/B 测试验证业务指标是否真的提升，避免代理指标提升但业务无收益。

一个机器学习项目从立项到上线有哪些阶段？

核心要点

标准回答

常见误区

追问

延伸学习