核心要点
用较高 temperature 对同一 Prompt 采样多条不同的 CoT 推理路径,而非贪心解码单条链。
只对最终答案做多数投票(majority vote),中间推理过程的差异被允许、不参与投票。
本质是「同一模型的自集成」:多条独立路径相互纠错,抵消单链的随机偏差。
它是典型的 test-time compute:用更多采样换更高准确率,成本随采样数线性上升。
标准回答
动机
普通 CoT 用贪心解码只走一条推理链,一旦中间某步出错,错误会传导到最终答案。Self-Consistency 的洞见是:通向正确答案的推理路径往往不止一条,而错误路径彼此各异。
做法
- 给定带 CoT 提示的问题,用偏高的 temperature(如 0.5–0.7)采样 N 条(如 5–40)独立推理路径。
- 从每条路径抽取最终答案。
- 对最终答案做多数投票,得票最多的作为输出。
为什么有效
多条路径构成同一模型的隐式集成:正确答案因被多条不同路径共同导向而高频出现,零散的错误答案被票数稀释,从而在数学、常识等推理基准上稳定优于单链 CoT。
代价
准确率提升以 N 倍推理成本和延迟为代价,需在收益饱和点上权衡采样数。
常见误区
⚠️ 常见踩坑
别对推理过程本身投票或要求各链推理一致——投票只针对最终答案;也别用 temperature=0,那样采样退化为同一条链,集成失效。
追问
追问 1:什么任务适合用 Self-Consistency?
适合有唯一可比对的离散最终答案、且存在多条有效推理路径的任务,如算术、数学应用题、多步常识与逻辑推理。对开放式生成(写作、摘要)不适用,因为答案无法直接多数投票。
追问 2:采样数 N 怎么选?
准确率随 N 上升但边际收益递减、很快饱和,常见取 5–40。需结合成本/延迟预算选在收益拐点附近;任务越难、模型越不确定,受益于更大 N 的空间越大。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。