一个问题该不该用机器学习来解决？如何判断？

Question 1

Accepted Answer

判断框架：五个问题 我会依次问自己五个问题，任何一个不满足都该重新考虑用不用 ML： - 有没有可学习的模式？ 问题背后要存在统计规律。完全随机或纯逻辑的问题（如计算税额）不该用 ML。 - 数据是否足够且有反馈？ 需要足量、有代表性的带标签数据，最好还有持续反馈能形成数据飞轮。没数据先想怎么积累数据。 - 规则能不能解决？ 如果用几条 if-else 或启发式就能达标，优先用规则——更可靠、可解释、好维护、上线快。ML 适合规则写不下的高维、复杂、多变模式。 - 错误成本与可解释/合规要求？ 错判代价高（医疗、信贷、风控）或法规要求可解释时，要么不用黑箱、要么配可解释方法和人工兜底。 - 维护成本划算吗？ ML 不是一次性交付，要长期养数据管线、训练与监控。要确认业务收益能覆盖这份持续投入。 结论 能用规则解决就别上 ML；当问题有清晰模式、数据充足、且复杂到规则难以覆盖、同时有反馈闭环可持续改进时，ML 才是对的选择。先用最简单能解决问题的方案，必要时再升级到 ML。

Question 2

什么样的问题明确不适合用机器学习？

Accepted Answer

几类典型：一是纯确定性逻辑问题（如计算、排序、税额），规则就是最优解；二是没有数据或数据无法获取/标注的问题，巧妇难为无米之炊；三是要求 100% 正确且错误不可接受、又无法人工兜底的场景，概率模型天然有错误率；四是问题分布不稳定、没有可学习模式的纯随机现象。这些情况下 ML 要么多余、要么不可靠。

Question 3

数据不够但又想用 ML，有哪些办法？

Accepted Answer

可以先用规则/启发式上线，借此积累真实数据形成飞轮；用迁移学习/预训练模型微调，降低对标注量的需求；用数据增强或合成数据扩充；用主动学习优先标注最有信息量的样本；或先用少量数据做小规模验证确认有信号，再决定是否加大标注投入。核心是别在数据没准备好时就重投 ML。

Question 4

如何向非技术的业务方解释「这个问题不该用 ML」？

Accepted Answer

避免技术术语，从成本和风险角度讲：先说明规则方案能更快上线、结果可解释、出错能直接定位修复，而 ML 需要持续投入数据和运维且有不可控的错误率；再用一个具体例子对比两种方案的投入产出。把决策落到「哪种方案在当前阶段对业务收益最大、风险最低」，业务方更容易认同。

一个问题该不该用机器学习来解决？如何判断？

核心要点

标准回答

常见误区

追问

延伸学习