标准回答
选型要权衡的维度
不是选「最先进」的,而是选「最合适」的。核心维度:问题类型(分类/排序/生成)、数据规模与结构(表格/文本/图像)、线上延迟与成本预算、可解释性要求、团队技术栈、生态与社区成熟度、长期可维护性。
简单优先原则
结构化表格数据,梯度提升树(XGBoost/LightGBM)往往是性价比最高的起点,训练快、可解释、调参成熟;文本/图像/语义任务才考虑深度模型或预训练大模型。能用线性模型说清楚的,别盲目上深度网络。
自训 vs 调 API
当业务尚未验证、调用量不大、或缺乏算法/算力时,先用成熟 API 快速跑通,验证业务价值。当成本、延迟、数据隐私或定制化成为瓶颈时,再评估自训自部署。
原型先行
先搭基线模型做端到端验证,拿到离线/小流量结果再决定是否投入复杂方案,避免一上来就过度工程。
常见误区
⚠️ 常见踩坑
盲目追求最新最复杂的模型(如表格任务硬上深度网络/大模型),忽视数据规模、延迟成本与可维护性;以及跳过简单基线直接做重方案。
追问
追问 1:什么时候应该从调 API 切换到自部署模型?
追问 2:团队不熟悉某项技术,但它效果更好,选不选?
要把「学习与维护成本」计入总成本。短期可先用团队熟悉的方案上线拿收益,同时小范围预研新技术、积累经验。若新技术带来的收益显著且长期,则有计划地引入并配套培训、文档与监控;若只是边际提升,则团队能力和生态成熟度优先,避免引入难以维护的黑盒。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。