o1 / R1 这类推理模型与普通 LLM 有什么不同（Test-Time Compute）？

Question 1

Accepted Answer

核心区别 普通 LLM 直接生成答案，推理模型（o1、DeepSeek-R1）会在回答前先输出一段很长的内部思维链，把问题拆解、试错、自我验证后再给结论。本质是用推理时的额外计算（test-time compute）去换取正确率。 训练方式 不只靠监督微调模仿人类答案，而是用强化学习让模型自己探索推理路径：对可验证的任务（数学有标准答案、代码可跑测试）给奖励，模型逐渐学会更长、更有效的自我探索与验证策略。 适用与权衡 数学、竞赛题、代码、复杂逻辑等需要多步推理且答案可验证的任务收益最大；闲聊、简单检索类任务则得不偿失。代价是长 CoT 显著增加延迟和 token 成本，工程上常按难度动态分配「思考预算」。

Question 2

推理模型的长思维链一定要展示给用户吗？

Accepted Answer

不一定。部分厂商隐藏原始 CoT 只给摘要，原因是原始链可能含中间错误、冗长且涉及训练机密；但隐藏会降低可解释性，需在透明度与体验间权衡。

Question 3

test-time compute 和训练时 scaling 是什么关系？

Accepted Answer

两者互补。训练时 scaling 靠更多数据与参数提升基座能力；test-time compute 在推理阶段靠更长 CoT、更多采样/搜索提升单题表现。推理模型把后者作为新的扩展维度，对难题尤其有效。

o1 / R1 这类推理模型与普通 LLM 有什么不同（Test-Time Compute）？

核心要点

标准回答

常见误区

追问

延伸学习