核心要点

  • 从问题类型、数据规模、延迟/成本、可解释性、团队能力、生态成熟度综合权衡

  • 简单优先:表格数据能用树模型(XGBoost/LightGBM)就别上深度网络

  • 能调成熟 API 解决就别自训自部署,先验证业务价值再考虑自建

  • 先用基线快速原型验证,再决定是否投入复杂方案,避免过度工程

标准回答

选型要权衡的维度

不是选「最先进」的,而是选「最合适」的。核心维度:问题类型(分类/排序/生成)、数据规模与结构(表格/文本/图像)、线上延迟与成本预算、可解释性要求、团队技术栈、生态与社区成熟度、长期可维护性。

简单优先原则

结构化表格数据,梯度提升树(XGBoost/LightGBM)往往是性价比最高的起点,训练快、可解释、调参成熟;文本/图像/语义任务才考虑深度模型或预训练大模型。能用线性模型说清楚的,别盲目上深度网络。

自训 vs 调 API

当业务尚未验证、调用量不大、或缺乏算法/算力时,先用成熟 API 快速跑通,验证业务价值。当成本、延迟、数据隐私或定制化成为瓶颈时,再评估自训自部署。

原型先行

先搭基线模型做端到端验证,拿到离线/小流量结果再决定是否投入复杂方案,避免一上来就过度工程。

常见误区

⚠️ 常见踩坑

盲目追求最新最复杂的模型(如表格任务硬上深度网络/大模型),忽视数据规模、延迟成本与可维护性;以及跳过简单基线直接做重方案。

追问

追问 1什么时候应该从调 API 切换到自部署模型?

当出现以下信号之一:调用量增长使 API 成本超过自建总成本;线上延迟/可用性受第三方限制无法满足 SLA;数据隐私合规要求数据不能出域;或业务需要深度定制(特定领域微调、私有数据),通用 API 效果不达标。切换前先做成本与效果的量化对比,分阶段灰度迁移。

追问 2团队不熟悉某项技术,但它效果更好,选不选?

要把「学习与维护成本」计入总成本。短期可先用团队熟悉的方案上线拿收益,同时小范围预研新技术、积累经验。若新技术带来的收益显著且长期,则有计划地引入并配套培训、文档与监控;若只是边际提升,则团队能力和生态成熟度优先,避免引入难以维护的黑盒。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。