标准回答
先按维度拆需求
任务有多难(简单分类还是复杂推理)决定要多强的模型;延迟要求高(实时对话)就选小模型或快通道;成本看每千 token 单价 × 预估调用量;数据能否出公网决定要不要私有部署;还要看上下文长度、语言支持、是否要微调定制、行业合规要求。
闭源 API vs 开源自部署
闭源(如各大厂 API)质量高、开箱即用、无需运维 GPU,适合快速验证和中小流量;开源权重模型可私有部署,数据不出内网、大流量下单位成本更低,但要自建推理服务、承担运维。隐私敏感或超大流量倾向开源自部署。
落地方法论
第一步用当前最强模型把功能跑通、确认效果天花板;第二步建一个小评测集,让候选的更小/更便宜模型在上面跑分;第三步在满足质量的前提下,选成本和延迟最优的那个,简单任务下沉到小模型、难任务才走大模型。
常见误区
⚠️ 常见踩坑
无脑上最大最贵的模型,导致成本和延迟爆炸;或者只比 benchmark 跑分,不在自己业务的评测集上实测,结果上线效果与预期差很远。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。