思维链蒸馏如何把推理能力迁移到小模型？

Question 1

思维链蒸馏如何把推理能力迁移到小模型？

Accepted Answer

核心做法 思维链（CoT）蒸馏让强推理的大模型（教师）对一批题目生成完整的逐步推理过程，把「问题 + 推理链 + 答案」整理成训练数据，再用监督微调（SFT）训练小模型（学生）去模仿这些推理轨迹。 关键点 监督目标是推理链本身，而非只有最终答案。这样小模型学到的是「怎么一步步想」，而不是死记输入到输出的映射，从而在分布外题目上也能展开推理。 质量控制与边界 通常只保留最终答案正确的推理链（拒绝采样/答案校验），过滤掉错误或绕路的轨迹，否则会把错误推理蒸进去。收益是小模型推理能力大幅提升、推理成本低、易部署；但受自身参数容量限制，学生通常难以超过教师，特别难的任务仍可能掉点。

Question 2

CoT 蒸馏和传统 logits 蒸馏有什么区别？

Accepted Answer

传统蒸馏让学生拟合教师的输出分布（soft label/logits）；CoT 蒸馏直接用教师生成的自然语言推理链做监督文本，迁移的是「推理过程」这种行为，而非概率分布。

Question 3

小模型蒸馏后推理能力会无限接近大模型吗？

Accepted Answer

不会。受容量上限制约，学生一般达不到教师水平，且容易过拟合到训练题型；在更难或更长推理的任务上差距会重新拉大，需配合数据多样性与难度覆盖来缓解。

思维链蒸馏如何把推理能力迁移到小模型？

核心要点

标准回答

常见误区

追问

延伸学习