Test-time Compute

考试时多想一会儿

亦作、亦称：推理时计算 · Test Time Compute · TTC

测试时计算（Test-time Compute）是指在模型推理阶段投入额外计算资源，通过延长思维链、多路径采样或引入搜索与验证机制来提升输出质量。它标志着 AI 性能提升路径从「训练时堆规模」延伸到「推理时多想一会儿」，是 o1、DeepSeek-R1 等推理模型的核心设计思路。

概述

传统 Scaling Law 靠更大模型与更多数据换能力，测试时计算则在参数固定后继续提升——同一模型「想得越久」，复杂任务准确率越高。

核心直觉：类比人类做难题时「草稿纸打草稿」，让模型在输出最终答案前先完成充分的中间推导。
适用任务：数学推理、竞赛编程、逻辑谜题等「答案可验证」的场景收益最显著；开放式写作类任务收益有限。
关键权衡：准确率提升伴随延迟增加与 token 成本上升，产品侧须在「质量—速度—成本」三角中取舍。
代表模型：OpenAI o1/o3、DeepSeek-R1、Google Gemini 2.0 Flash Thinking、Anthropic Claude 3.7 Sonnet 均以此为核心卖点。

工作原理

测试时计算通过多种机制让模型在输出前进行更充分的「内部推敲」。

延长思维链（Long CoT）：模型生成数百乃至数千 token 的中间推理步骤再给出答案；o1 的「隐藏思维链」即属此类。
多样本自洽（Self-consistency）：对同一问题独立采样多条路径，最终答案由多数投票或置信度加权决定，显著降低单次采样的随机误差。
树搜索（Tree Search）：以 MCTS（蒙特卡洛树搜索）或 Beam Search 在推理步骤空间中探索，剪枝低质量分支，保留高置信路径。
过程奖励模型（PRM）：逐步骤打分的验证器，引导搜索朝正确推理方向前进；与结果奖励模型（ORM）配合使用效果更优。
计算预算控制：通过系统提示或特殊 token（如 <think>）指定思考深度，实现精细的延迟-质量调节。

类型与变体

根据扩展计算的方式不同，测试时计算可分为以下几类。

串行扩展：单条推理链变得更长，token 数线性增长；延迟同步增加，但实现最简单。
并行扩展（Best-of-N）：同时采样 N 条路径后聚合；总 token 消耗乘以 N，但单路延迟不变，可利用多卡并行。
迭代精炼：模型对初稿进行多轮批评与修正，类似人类草稿-审校流程。
外部工具调用：推理中调用计算器、代码执行器或搜索引擎，将部分计算外包给确定性工具，提升可靠性。
混合架构：如 o3、AlphaCode 2 将串行 CoT、并行采样与树搜索组合，在不同层次分配计算预算。

应用场景

测试时计算在对准确率要求高、容忍一定延迟的场景中价值最突出。

数学竞赛与定理证明：o1 在 AIME 2024 上的得分因思考时间延长而显著提升，超越多数人类竞赛选手。
代码生成与调试：多路径采样后运行测试用例过滤，大幅提升一次性通过率（pass@1）。
科学推理与医疗辅助：复杂因果链推导从延长 CoT 受益明显，降低多步推理出错率。
智能体规划（Agentic Planning）：长时任务中模型需规划多步行动，推理时搜索可降低中途犯错概率。
小模型替代大模型：小参数模型通过增加推理计算，可在特定任务上追上更大模型的表现，降低部署硬件成本。

与相邻概念的区别

测试时计算常与几个相近概念混淆，以下逐一辨析。

Test-time Compute vs 训练时 Scaling：训练 Scaling 靠更大参数量或更多数据；测试时计算在参数固定后仍可持续提升，两者在 Scaling Law 曲线上互补。
Test-time Compute vs 提示工程：提示工程不增加推理 FLOP，只改变输入格式；测试时计算显式增加计算量，是系统级架构设计。
Test-time Compute vs RAG：RAG 靠外部知识库补充信息；测试时计算聚焦于模型内部推理过程深度，两者可叠加使用。
Test-time Compute vs 思维链（CoT）：CoT 是测试时计算的一种具体实现方式；测试时计算是更宽泛的框架，还涵盖搜索、采样、验证等手段。
Test-time Compute vs 蒸馏：蒸馏将大模型能力压缩进小模型（发生在训练阶段）；测试时计算在推理时动态扩展，不改变模型权重。

局限与误区

测试时计算存在明确的边界条件与常见误解，不宜无节制使用。

收益递减：计算量超过某阈值后准确率提升趋于平缓，边际收益下降，并非无限可扩展。
依赖可验证信号：自洽投票与树搜索需要某种正确性判断依据；主观写作类任务缺乏此信号，扩展收益难以衡量。
过度思考（Overthinking）风险：研究发现，过长的 CoT 有时反而让模型推翻正确的初始判断，出现「越想越错」现象。
成本陷阱：长思维链在高并发场景下 token 成本急剧膨胀；o1 系列单次调用费用显著高于 GPT-4o，不适合所有场景。
无法弥补知识盲区：若基础模型对某领域知识严重缺失，增加推理计算无法凭空产生正确答案，「多想」仍会「多错」。

发展脉络

测试时计算的概念随大语言模型能力跃升而逐步受到重视。

2022：Self-consistency（Wang et al.，Google Brain）提出多路径采样投票，首次系统验证推理时并行扩展的收益；Chain-of-Thought（Wei et al.，Google）同年系统化，奠定延长推理链的基础。
2023：Let's Verify Step by Step（Lightman et al., OpenAI）引入过程奖励模型（PRM），为逐步骤验证奠定方法论基础；Tree of Thoughts（Yao et al.）将推理组织为可搜索的树结构。
2024 年 8 月：UC Berkeley 与 Google DeepMind 合作发布论文 「Scaling LLM Test-Time Compute Optimally…」（Snell et al.），系统证明推理时计算扩展可比增加模型参数更高效。
2024 年 9 月：OpenAI 发布 o1，将隐藏式长思维链推向大众，「测试时计算」成为行业热词与产品竞争新维度。
2025 年 1 月：DeepSeek 发布 R1，以开源方式、更低训练成本复现长推理能力，证明该范式可低成本复制。
2025 年：Google Gemini 2.0 Flash Thinking、Anthropic Claude 3.7 Sonnet 等相继加入；学界围绕「动态计算预算」「过度思考抑制」「与训练时计算协同 Scaling」展开深入研究。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「考试时多想一会儿」
「o1 那种想很久再答」
「用算力换准确率」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

Test-time Compute

概述

工作原理

类型与变体

应用场景

与相邻概念的区别

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

LLM 系统性泛化：为什么模型会「举一反三」却「无法触类旁通」

LLM 推理加速实战：从 KV Cache 优化到推测解码

RLHF（一）：基于人类反馈的强化学习

觉得内容有帮助？请站长喝杯咖啡 ☕