核心要点

  • 能下定义:用一个大教师模型指导小学生模型训练,让学生逼近教师能力,从而在更小体量上获得接近的性能

  • 能讲清核心机制:学生不只学硬标签,更去拟合教师输出的软标签/logits(带温度的概率分布),学到类别间相对关系这一「暗知识」

  • 能说清损失构成:常用教师软标签的 KL 散度 + 真实标签的交叉熵,配合温度 T 平滑分布

  • 能区分蒸馏方式:响应/logits 蒸馏、特征/中间层蒸馏;LLM 场景常用教师生成的数据/推理过程做序列级蒸馏

标准回答

核心思想

知识蒸馏让一个小的「学生」模型在一个大的「教师」模型指导下训练,目标是用更少参数逼近教师能力,便于部署、降低推理成本。

为什么有效:软标签里的暗知识

关键在于学生不仅学真实硬标签,更去拟合教师输出的软标签——即带温度 T 的概率分布或 logits。软标签包含「类别间相对置信度」这一暗知识(例如教师认为某题答案是 A,但 B 也有不小概率),信息量远超 0/1 硬标签,能更高效地引导学生学习。损失通常是「教师软标签的 KL 散度 + 真实标签的交叉熵」的加权。

LLM 场景的做法

对生成式大模型,常用教师生成高质量回答、推理链(CoT)或对每个 token 的分布做序列级蒸馏,让小模型模仿教师的输出与推理风格,从而把大模型能力迁移到小模型。详见 AI 模型蒸馏技术

常见误区

⚠️ 常见踩坑

蒸馏的价值在于软标签的「暗知识」,只用硬标签重训小模型不算真正的蒸馏;另外温度 T 不是越大越好——T 过大分布过平、信息被抹平,T 过小又退化成接近硬标签,需要调参权衡。

追问

追问 1蒸馏里的温度参数 T 起什么作用?

T 用来平滑 softmax 输出。T 越大,概率分布越平缓,非目标类别的相对信息(暗知识)越突出,学生更容易学到类别间关系;T 越小越接近 one-hot。训练时教师和学生用同一 T 软化,推理时学生再恢复 T=1。

追问 2知识蒸馏和直接用教师生成数据做 SFT 有何区别?

用教师生成的(指令,回答)对训学生是「数据/序列级蒸馏」,学生只看到采样后的硬文本。狭义蒸馏还会匹配教师的 token 分布/logits,传递更细的概率信息,理论上信息更充分;前者实现简单、可跨不同 tokenizer,更常用于 LLM。

追问 3蒸馏后的小模型一定能达到教师水平吗?

通常达不到完全相同,存在容量上限——学生参数更少,复杂能力和长尾知识会有损失。蒸馏目标是在可接受的精度损失下大幅降低体量与推理成本,常能保留教师大部分能力,但极难做到无损迁移。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。