Test-time Compute

「考试时多想一会儿」

亦作、亦称:推理时计算 · Test Time Compute · TTC

推理阶段投入更多计算(延长思维链、采样多条路径、自洽投票),以提升复杂任务准确率,o1/R1 等推理模型的核心思路。 Test-time Compute 把算力从训练延伸到推理:让模型「多想几步」以换取难题上的准确率跃升。

工作原理

在固定权重下增加推理计算:延长思维链(CoT)、并行采样多条路径、Best-of-N 选择、树搜索(MCTS)、自洽投票或调用验证器。OpenAI o1/o3、DeepSeek-R1 等将 hidden reasoning tokens 纳入产品形态。

应用场景

数学证明、竞赛编程、复杂规划、科学推理等延迟可容忍、准确率优先的任务。API 常按 reasoning tokens 单独计费。

局限与误区

并非所有任务都受益;简单问答反而变慢变贵。需设思考预算、超时与回退策略;过度思考可能陷入错误链路的自我强化。

发展脉络

CoT(2022)奠定基础;2024 年 o1 将 TTC 产品化;2025 年 R1 开源推动社区探索 RL + TTC 组合。

人们怎么说

日常交流里常听到的说法——未必准确,但有助于理解误解从哪来。

  • 「考试时多想一会儿」
  • 「o1 那种想很久再答」
  • 「用算力换准确率」

参见

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    LLM 系统性泛化:为什么模型会「举一反三」却「无法触类旁通」

    深度解读 2026 年最新研究:LLM 在空间迁移上表现优异但在长度缩放上一致失败——揭示递归不稳定性的本质,以及数据覆盖、强化学习、推理时缩放各自的能力边界

  2. 2

    LLM 推理加速实战:从 KV Cache 优化到推测解码

    系统梳理 LLM 推理加速的核心技术——KV Cache 管理、PagedAttention、推测解码、连续批处理,掌握生产环境推理优化的决策框架和工具链

  3. 3

    RLHF(一):基于人类反馈的强化学习

    从奖励模型到 PPO 优化,理解大模型对齐的核心技术