核心要点

  • 能说优势:参数小、可端侧/本地运行,推理成本低、延迟低,数据不出端保隐私

  • 能说适用:特定/垂直任务、意图识别、结构化抽取、设备助手等明确范围的任务

  • 能说配套:常配知识蒸馏与领域微调,把大模型能力压进小模型以补足通用能力

  • 能说局限:复杂多步推理、长链路规划、广博世界知识弱,需 RAG 或回落大模型兜底

标准回答

SLM 的优势

语言模型(如 Phi、Gemma 小尺寸、Qwen 小模型)参数量小,能在手机/边缘设备本地运行。带来三点价值:推理成本低、延迟低(无网络往返)、数据不出设备从而保护隐私。

适合的场景

范围明确的特定任务最契合:意图识别、文本分类、实体/结构化信息抽取、设备端助手、固定流程的工具调用等。这类任务对世界知识广度要求不高,靠领域数据微调就能达到可用甚至优于通用大模型的效果。

配套手段

SLM 通常配合知识蒸馏(用大模型当老师)与领域微调,把目标能力压进小模型;知识时效性问题交给 RAG。

局限

复杂的多步推理、长链路规划、需要广博知识的开放问答仍是短板,应通过 RAG 补知识、或在置信度低时回落到云端大模型。

常见误区

⚠️ 常见踩坑

把 SLM 当通用大模型用,期望它处理开放域复杂推理;以及忽视「窄而专」才是 SLM 的价值——不做任务聚焦与微调,直接裸用小模型效果往往不及预期。

追问

追问 1SLM 为什么能在特定任务上接近甚至超过大模型?

因为任务被收窄后,模型只需覆盖有限分布。通过高质量领域数据微调(或大模型蒸馏出的数据),SLM 能把容量集中用在该任务上,去掉了通用大模型的冗余能力,于是在该窄域上达到高准确率,同时延迟和成本远低于大模型。

追问 2SLM 知识过时或不足时如何补救?

主要靠 RAG:把最新或私有知识放入外部知识库,检索后拼进上下文,无需重训即可更新知识,也便于溯源。对超出能力的复杂查询,可按置信度路由回落到云端大模型,形成端云协同。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。