核心要点
从业务理解与问题定义开始,把业务指标翻译成可优化的 ML 指标
完整链路:数据收集与理解→特征与建模→离线评估→部署→监控与迭代
是循环不是瀑布——监控发现问题后回到数据/特征/建模继续迭代
业务指标(而非纯模型指标)贯穿全程,每个阶段都对齐它
标准回答
ML 项目是一个闭环,不是一次性的瀑布流。
1. 业务理解与问题定义
- 明确要解决的业务问题、可衡量的成功标准(如转化率、召回成本)。
- 把业务目标翻译成 ML 问题(分类/回归/排序)和对应的离线指标。
2. 数据收集与理解
- 评估数据可得性、质量、标签来源,做 EDA 理解分布与缺失。
- 这一步常被低估,却决定上限。
3. 特征工程与建模
- 先做 Baseline,再逐步加复杂度;保证训练/线上特征一致。
4. 评估
- 离线用合理切分与切片指标;上线前用 A/B 测试验证业务指标。
5. 部署
- 工程化:数据管线、特征服务、延迟、可扩展、回滚。
6. 监控与迭代
- 监控数据漂移、模型衰减、线上指标;触发回到前面的环节重训迭代,形成数据飞轮。
关键是业务指标贯穿全程——模型 AUC 提升但业务无收益等于没做。
常见误区
⚠️ 常见踩坑
把流程当成一次性瀑布、忽略上线后的监控与迭代;或只盯模型指标(AUC/F1)而不对齐业务指标,导致"模型变好但业务没变好"。
追问
追问 1:哪个阶段最容易被低估、最影响最终效果?
数据收集与理解阶段。数据质量与标签质量决定模型上限,但常被压缩。问题定义同样关键——把业务问题翻译错了,后面再优化也是南辕北辙。
追问 2:为什么说 ML 项目是循环而非瀑布?
因为上线后会遇到数据漂移、长尾 badcase、业务变化,监控会持续暴露新问题,需要回到数据/特征/建模重新迭代。模型是"活的",要持续重训与评估,不是交付一次就结束。
追问 3:如何把业务指标和模型指标对齐?
先定义业务北极星指标,再找与之相关性高的可离线优化的代理指标(proxy),离线用代理指标快速迭代,上线用 A/B 测试验证业务指标是否真的提升,避免代理指标提升但业务无收益。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。