标准回答
核心思想
知识蒸馏让一个小的「学生」模型在一个大的「教师」模型指导下训练,目标是用更少参数逼近教师能力,便于部署、降低推理成本。
为什么有效:软标签里的暗知识
关键在于学生不仅学真实硬标签,更去拟合教师输出的软标签——即带温度 T 的概率分布或 logits。软标签包含「类别间相对置信度」这一暗知识(例如教师认为某题答案是 A,但 B 也有不小概率),信息量远超 0/1 硬标签,能更高效地引导学生学习。损失通常是「教师软标签的 KL 散度 + 真实标签的交叉熵」的加权。
LLM 场景的做法
对生成式大模型,常用教师生成高质量回答、推理链(CoT)或对每个 token 的分布做序列级蒸馏,让小模型模仿教师的输出与推理风格,从而把大模型能力迁移到小模型。详见 AI 模型蒸馏技术。
常见误区
⚠️ 常见踩坑
蒸馏的价值在于软标签的「暗知识」,只用硬标签重训小模型不算真正的蒸馏;另外温度 T 不是越大越好——T 过大分布过平、信息被抹平,T 过小又退化成接近硬标签,需要调参权衡。
追问
追问 1:蒸馏里的温度参数 T 起什么作用?
T 用来平滑 softmax 输出。T 越大,概率分布越平缓,非目标类别的相对信息(暗知识)越突出,学生更容易学到类别间关系;T 越小越接近 one-hot。训练时教师和学生用同一 T 软化,推理时学生再恢复 T=1。
追问 2:知识蒸馏和直接用教师生成数据做 SFT 有何区别?
用教师生成的(指令,回答)对训学生是「数据/序列级蒸馏」,学生只看到采样后的硬文本。狭义蒸馏还会匹配教师的 token 分布/logits,传递更细的概率信息,理论上信息更充分;前者实现简单、可跨不同 tokenizer,更常用于 LLM。
追问 3:蒸馏后的小模型一定能达到教师水平吗?
通常达不到完全相同,存在容量上限——学生参数更少,复杂能力和长尾知识会有损失。蒸馏目标是在可接受的精度损失下大幅降低体量与推理成本,常能保留教师大部分能力,但极难做到无损迁移。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。