为什么「推理时扩展」（Test-Time Scaling）能提升模型能力？

Question 1

Accepted Answer

是什么 Test-Time Scaling 指在不改变模型权重的前提下，于推理阶段投入更多计算来提升表现：让模型想得更久（长 CoT）、多生成几个候选（采样）、或做结构化搜索，再从中挑出更好的答案。 主流手段 - 长思维链：单条推理走得更深更细。 - best-of-N / 自洽（self-consistency）：采样多条，多数投票或选最优。 - 搜索：Tree-of-Thoughts、MCTS 等显式探索多分支。 - 验证/重排：用验证器或奖励模型对候选打分择优。 为什么有效 对难题，正确解往往需要多步且不止一条路径。一次贪心解码容易卡在错误分支；多探索几条再验证/投票，命中正确答案的概率显著提高——相当于把「算力」转化为「正确率」。 与训练 scaling 的关系 它是与「堆参数/数据」并列的第二个扩展维度，二者互补：基座越强、单位推理算力收益越高。但收益边际递减，工程上需按任务难度动态分配思考预算，避免简单任务浪费算力。

Question 2

best-of-N 一定要有验证器吗？

Accepted Answer

不一定。无验证器时可用自洽（self-consistency）做多数投票，适合答案唯一可比对的任务；有可靠验证器（如单测、奖励模型）时按分择优效果更好，尤其对开放式或长答案。

Question 3

推理模型的长 CoT 也算 test-time scaling 吗？

Accepted Answer

算。延长思维链就是在推理时投入更多计算的一种形式。推理模型通过 RL 学会更有效地利用这部分算力做自我探索与验证，是 test-time scaling 的内生化体现。

为什么「推理时扩展」（Test-Time Scaling）能提升模型能力？

核心要点

标准回答

常见误区

追问

延伸学习