大模型知识蒸馏如何把大模型能力迁移到小模型？

Question 1

Accepted Answer

核心思想 知识蒸馏让一个小的「学生」模型在一个大的「教师」模型指导下训练，目标是用更少参数逼近教师能力，便于部署、降低推理成本。 为什么有效：软标签里的暗知识 关键在于学生不仅学真实硬标签，更去拟合教师输出的软标签——即带温度 T 的概率分布或 logits。软标签包含「类别间相对置信度」这一暗知识（例如教师认为某题答案是 A，但 B 也有不小概率），信息量远超 0/1 硬标签，能更高效地引导学生学习。损失通常是「教师软标签的 KL 散度 + 真实标签的交叉熵」的加权。 LLM 场景的做法 对生成式大模型，常用教师生成高质量回答、推理链（CoT）或对每个 token 的分布做序列级蒸馏，让小模型模仿教师的输出与推理风格，从而把大模型能力迁移到小模型。详见 AI 模型蒸馏技术。

Question 2

蒸馏里的温度参数 T 起什么作用？

Accepted Answer

T 用来平滑 softmax 输出。T 越大，概率分布越平缓，非目标类别的相对信息（暗知识）越突出，学生更容易学到类别间关系；T 越小越接近 one-hot。训练时教师和学生用同一 T 软化，推理时学生再恢复 T=1。

Question 3

知识蒸馏和直接用教师生成数据做 SFT 有何区别？

Accepted Answer

用教师生成的（指令,回答）对训学生是「数据/序列级蒸馏」，学生只看到采样后的硬文本。狭义蒸馏还会匹配教师的 token 分布/logits，传递更细的概率信息，理论上信息更充分；前者实现简单、可跨不同 tokenizer，更常用于 LLM。

Question 4

蒸馏后的小模型一定能达到教师水平吗？

Accepted Answer

通常达不到完全相同，存在容量上限——学生参数更少，复杂能力和长尾知识会有损失。蒸馏目标是在可接受的精度损失下大幅降低体量与推理成本，常能保留教师大部分能力，但极难做到无损迁移。

大模型知识蒸馏如何把大模型能力迁移到小模型？

核心要点

标准回答

常见误区

追问

延伸学习