标准回答
核心区别
普通 LLM 直接生成答案,推理模型(o1、DeepSeek-R1)会在回答前先输出一段很长的内部思维链,把问题拆解、试错、自我验证后再给结论。本质是用推理时的额外计算(test-time compute)去换取正确率。
训练方式
不只靠监督微调模仿人类答案,而是用强化学习让模型自己探索推理路径:对可验证的任务(数学有标准答案、代码可跑测试)给奖励,模型逐渐学会更长、更有效的自我探索与验证策略。
适用与权衡
数学、竞赛题、代码、复杂逻辑等需要多步推理且答案可验证的任务收益最大;闲聊、简单检索类任务则得不偿失。代价是长 CoT 显著增加延迟和 token 成本,工程上常按难度动态分配「思考预算」。
常见误区
⚠️ 常见踩坑
别把推理模型理解成「换了个更大的 base 模型」——关键在 RL 训练出的长 CoT 自我验证能力,而非单纯堆参数;也别在所有任务都开长思考,简单任务上它只会更慢更贵且未必更准。
追问
追问 1:推理模型的长思维链一定要展示给用户吗?
不一定。部分厂商隐藏原始 CoT 只给摘要,原因是原始链可能含中间错误、冗长且涉及训练机密;但隐藏会降低可解释性,需在透明度与体验间权衡。
追问 2:test-time compute 和训练时 scaling 是什么关系?
两者互补。训练时 scaling 靠更多数据与参数提升基座能力;test-time compute 在推理阶段靠更长 CoT、更多采样/搜索提升单题表现。推理模型把后者作为新的扩展维度,对难题尤其有效。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。