标准回答
核心做法
思维链(CoT)蒸馏让强推理的大模型(教师)对一批题目生成完整的逐步推理过程,把「问题 + 推理链 + 答案」整理成训练数据,再用监督微调(SFT)训练小模型(学生)去模仿这些推理轨迹。
关键点
监督目标是推理链本身,而非只有最终答案。这样小模型学到的是「怎么一步步想」,而不是死记输入到输出的映射,从而在分布外题目上也能展开推理。
质量控制与边界
通常只保留最终答案正确的推理链(拒绝采样/答案校验),过滤掉错误或绕路的轨迹,否则会把错误推理蒸进去。收益是小模型推理能力大幅提升、推理成本低、易部署;但受自身参数容量限制,学生通常难以超过教师,特别难的任务仍可能掉点。
常见误区
⚠️ 常见踩坑
别把 CoT 蒸馏等同于普通蒸馏「只学最终答案/logits」——它的精髓是把显式推理过程当训练信号;也别不做正确性过滤就全量喂入,错误推理链会让小模型学到「自信地说错」。
追问
追问 1:CoT 蒸馏和传统 logits 蒸馏有什么区别?
传统蒸馏让学生拟合教师的输出分布(soft label/logits);CoT 蒸馏直接用教师生成的自然语言推理链做监督文本,迁移的是「推理过程」这种行为,而非概率分布。
追问 2:小模型蒸馏后推理能力会无限接近大模型吗?
不会。受容量上限制约,学生一般达不到教师水平,且容易过拟合到训练题型;在更难或更长推理的任务上差距会重新拉大,需配合数据多样性与难度覆盖来缓解。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。