核心要点

  • 能讲清核心:用强推理大模型对题目生成完整思维链,把「问题→推理过程→答案」作为样本微调小模型

  • 能说出关键:监督目标是推理链本身,让小模型学会逐步推理,而不是只拟合最终答案

  • 能说出质量控制:只保留答案正确(拒绝采样/答案校验)的推理链,过滤错误轨迹,避免学坏

  • 能说出收益与边界:小模型推理能力显著提升、成本低;但受限于自身容量,难超过教师,复杂任务仍可能掉点

标准回答

核心做法

思维链(CoT)蒸馏让强推理的大模型(教师)对一批题目生成完整的逐步推理过程,把「问题 + 推理链 + 答案」整理成训练数据,再用监督微调(SFT)训练小模型(学生)去模仿这些推理轨迹。

关键点

监督目标是推理链本身,而非只有最终答案。这样小模型学到的是「怎么一步步想」,而不是死记输入到输出的映射,从而在分布外题目上也能展开推理。

质量控制与边界

通常只保留最终答案正确的推理链(拒绝采样/答案校验),过滤掉错误或绕路的轨迹,否则会把错误推理蒸进去。收益是小模型推理能力大幅提升、推理成本低、易部署;但受自身参数容量限制,学生通常难以超过教师,特别难的任务仍可能掉点。

常见误区

⚠️ 常见踩坑

别把 CoT 蒸馏等同于普通蒸馏「只学最终答案/logits」——它的精髓是把显式推理过程当训练信号;也别不做正确性过滤就全量喂入,错误推理链会让小模型学到「自信地说错」。

追问

追问 1CoT 蒸馏和传统 logits 蒸馏有什么区别?

传统蒸馏让学生拟合教师的输出分布(soft label/logits);CoT 蒸馏直接用教师生成的自然语言推理链做监督文本,迁移的是「推理过程」这种行为,而非概率分布。

追问 2小模型蒸馏后推理能力会无限接近大模型吗?

不会。受容量上限制约,学生一般达不到教师水平,且容易过拟合到训练题型;在更难或更长推理的任务上差距会重新拉大,需配合数据多样性与难度覆盖来缓解。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。