核心要点

  • 用较高 temperature 对同一 Prompt 采样多条不同的 CoT 推理路径,而非贪心解码单条链。

  • 只对最终答案做多数投票(majority vote),中间推理过程的差异被允许、不参与投票。

  • 本质是「同一模型的自集成」:多条独立路径相互纠错,抵消单链的随机偏差。

  • 它是典型的 test-time compute:用更多采样换更高准确率,成本随采样数线性上升。

标准回答

动机

普通 CoT 用贪心解码只走一条推理链,一旦中间某步出错,错误会传导到最终答案。Self-Consistency 的洞见是:通向正确答案的推理路径往往不止一条,而错误路径彼此各异。

做法

  1. 给定带 CoT 提示的问题,用偏高的 temperature(如 0.5–0.7)采样 N 条(如 5–40)独立推理路径。
  2. 从每条路径抽取最终答案。
  3. 对最终答案做多数投票,得票最多的作为输出。

为什么有效

多条路径构成同一模型的隐式集成:正确答案因被多条不同路径共同导向而高频出现,零散的错误答案被票数稀释,从而在数学、常识等推理基准上稳定优于单链 CoT。

代价

准确率提升以 N 倍推理成本和延迟为代价,需在收益饱和点上权衡采样数。

常见误区

⚠️ 常见踩坑

别对推理过程本身投票或要求各链推理一致——投票只针对最终答案;也别用 temperature=0,那样采样退化为同一条链,集成失效。

追问

追问 1什么任务适合用 Self-Consistency?

适合有唯一可比对的离散最终答案、且存在多条有效推理路径的任务,如算术、数学应用题、多步常识与逻辑推理。对开放式生成(写作、摘要)不适用,因为答案无法直接多数投票。

追问 2采样数 N 怎么选?

准确率随 N 上升但边际收益递减、很快饱和,常见取 5–40。需结合成本/延迟预算选在收益拐点附近;任务越难、模型越不确定,受益于更大 N 的空间越大。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。