核心要点
能讲清定义:固定模型权重不变,在推理阶段投入更多计算(更长 CoT、更多采样、搜索)来换更高正确率
能举出主流手段:长思维链、best-of-N / 自洽多数投票、Tree-of-Thoughts / MCTS 搜索、带验证器的重排
能解释为何有效:难题答案空间大,多探索几条路径并择优/验证,比一次贪心生成更可能命中正确解
能说出与训练 scaling 的关系:互补的第二个扩展维度,但收益随计算量边际递减,需按任务难度分配预算
标准回答
是什么
Test-Time Scaling 指在不改变模型权重的前提下,于推理阶段投入更多计算来提升表现:让模型想得更久(长 CoT)、多生成几个候选(采样)、或做结构化搜索,再从中挑出更好的答案。
主流手段
- 长思维链:单条推理走得更深更细。
- best-of-N / 自洽(self-consistency):采样多条,多数投票或选最优。
- 搜索:Tree-of-Thoughts、MCTS 等显式探索多分支。
- 验证/重排:用验证器或奖励模型对候选打分择优。
为什么有效
对难题,正确解往往需要多步且不止一条路径。一次贪心解码容易卡在错误分支;多探索几条再验证/投票,命中正确答案的概率显著提高——相当于把「算力」转化为「正确率」。
与训练 scaling 的关系
它是与「堆参数/数据」并列的第二个扩展维度,二者互补:基座越强、单位推理算力收益越高。但收益边际递减,工程上需按任务难度动态分配思考预算,避免简单任务浪费算力。
常见误区
⚠️ 常见踩坑
别以为「推理时多花算力一定线性变强」——收益边际递减,简单任务上 best-of-N、长 CoT 只是徒增成本与延迟;也别忽视它需要好的选择机制(验证器/投票),否则采样再多也挑不出对的答案。
追问
追问 1:best-of-N 一定要有验证器吗?
不一定。无验证器时可用自洽(self-consistency)做多数投票,适合答案唯一可比对的任务;有可靠验证器(如单测、奖励模型)时按分择优效果更好,尤其对开放式或长答案。
追问 2:推理模型的长 CoT 也算 test-time scaling 吗?
算。延长思维链就是在推理时投入更多计算的一种形式。推理模型通过 RL 学会更有效地利用这部分算力做自我探索与验证,是 test-time scaling 的内生化体现。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。