SLM（小语言模型）

手机也能跑的小模型

亦作、亦称：小语言模型

小语言模型（Small Language Model，SLM）是参数量通常在 1B–10B 量级、可在消费级设备上本地运行的生成式语言模型。与需要大规模数据中心的大语言模型相比，SLM 在保留核心自然语言能力的同时大幅降低推理延迟与内存门槛，是 AI 端侧化与隐私部署的核心方案。

概述

SLM 并无统一的参数上限标准，业界通常以能否在消费级硬件上流畅运行作为判断依据。

参数规模：主流 SLM 在 1B–10B 之间，部分宽松定义延伸至 13B，与数百亿至数千亿参数的大模型相对
核心目标：在手机 NPU、笔记本 GPU 或嵌入式芯片上实现低延迟、低功耗的本地推理
隐私价值：数据完全在设备内处理，天然满足 GDPR 等隐私合规要求，适合医疗、法律等敏感场景
代表模型：微软 Phi-3-mini（3.8B）、Google Gemma 2B/7B、Meta LLaMA 系列 7B、TinyLlama（1.1B）等

SLM 沿用 Transformer 架构，并借助多种技术在小体积内保持较强能力。

SLM 的崛起伴随端侧硬件跃升与大模型普及后对本地化的强烈需求。

2019：DistilBERT 通过知识蒸馏将 BERT 参数压缩 40%、推理提速 60%，开创「小而强」研究路线
2023 年初：Meta 发布 LLaMA（7B/13B），开源社区首次大规模探索小参数通用语言模型
2023 年中：微软发布 Phi-1（1.3B）和 Phi-2（2.7B），以 2.7B 参数在多项基准超越 7B–13B 模型，「小模型」话题引爆业界
2023 年底：TinyLlama（1.1B）由新加坡科技设计大学开源，在 1T token 上充分训练
2024 年：微软 Phi-3 系列（Phi-3-mini 3.8B）发布，成为首批可在 iPhone 上流畅运行的通用 SLM；苹果 Apple Intelligence 将设备端 SLM 带入主流消费市场
2025–2026：多模态 SLM（视觉+语言）与 SLM + Agent 框架成为新焦点，手机本地推理成主流场景

SLM 的低资源特性开辟了大模型难以覆盖的落地场景。

SLM 常与若干相关概念混用，以下为关键区分点。

SLM vs LLM：LLM 通常指参数 70B 以上的旗舰模型（如 GPT-4、Claude 3 Opus），能力更强但须数据中心支撑；SLM 牺牲部分复杂推理能力换取可本地运行
SLM vs 量化大模型：量化大模型是将 70B+ 模型压缩后部署，仍需较大内存；SLM 从架构层就小，资源需求本质更低
SLM vs 蒸馏模型：蒸馏是 SLM 的常用训练手段之一，并非同义词；SLM 也可完全从头预训练
SLM vs Edge AI：Edge AI 是部署范式，SLM 是模型类别；SLM 是实现边缘侧语言能力的主流方案
SLM vs PEFT：LoRA 等高效微调技术与「模型体量小」是正交概念，SLM 同样可叠加 PEFT 进行领域适配

SLM 并非万能，需清醒认识其边界。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。