Self-Consistency（自洽解码）

多问几次取多数

亦作、亦称：自洽解码 · Self Consistency

自洽解码（Self-Consistency）是一种在推理阶段提升大语言模型准确率的采样策略：对同一问题多次生成不同的思维链推理路径，再通过多数投票聚合出最终答案，无需对模型进行任何微调。其核心假设是：正确路径更倾向于汇聚到同一个答案，而错误路径则各自分散。

概述

Self-Consistency 由 Wang 等人于 2022 年提出，发表于 ICLR 2023。

提出背景：以思维链提示（Chain-of-Thought Prompting）为基础，解决单次贪心解码（greedy decoding）稳定性不足的问题。
核心操作：提高采样温度让模型多次输出不同推理轨迹，对最终答案执行多数投票（majority voting）。
无需训练：整个过程完全发生在推理阶段，不涉及任何参数更新，属于测试时计算扩展（test-time compute scaling）的早期代表。
实证效果：原论文在 GSM8K（+17.9%）、SVAMP（+11.0%）、AQuA（+12.2%）等基准上相比单次贪心解码取得了明显提升。

直觉理解

可以把 Self-Consistency 类比为「独立专家小组投票」。

每位专家独立审题、独立推导，最后公开答案，少数服从多数。
语言模型在非零温度下的每次采样，等价于一次「独立尝试」，多数票机制将随机性转化为集成优势。
前提假设：「正确答案集中、错误答案分散」，在开放生成或知识缺失的场景下并不必然成立。
该直觉解释了为何该方法在有明确正确答案的推理任务（算术、符号推理）上效果最佳。

工作原理

标准流程分三步。

第一步：构造包含少样本示例的思维链提示（few-shot CoT prompt），每个示例展示完整逐步推理过程。
第二步：将采样温度调至较高水平（原论文常用 0.7 左右），独立调用模型 k 次（k 通常在 10 至 40 之间），得到 k 条「推理过程 + 最终答案」序列。
第三步：提取各序列末尾的答案字段，统计频次，选出得票最多者作为最终输出。
关键细节：投票仅比较答案表层形式，需在提取阶段做好格式规范化（如将「0.5」与「1/2」归一化为同一形式），避免语义等价答案被误判为不同选项。

类型与变体

原始方法对所有候选路径等权计票，后续研究探索了多种改进方向。

加权投票：利用模型对各路径的对数似然（log-probability）作为置信度进行加权，使高置信路径贡献更大。
开放域扩展：Universal Self-Consistency 将框架推广至开放式生成任务，让模型以自然语言总结多条输出的共同点，而非直接投票。
引入评分器：Best-of-N 采样借助外部奖励模型（reward model）对候选答案打分，思路与 Self-Consistency 相近但依赖额外训练好的打分器，已成为 RLHF 测试时扩展的重要手段。

应用场景

Self-Consistency 在答案空间有限且存在客观正确答案的任务上效果最为突出。

算术推理：GSM8K、MATH 等数学文字题，相比单次 CoT 准确率提升幅度可达数个到十余个百分点。
符号与逻辑推断：多步逻辑推断、结构化信息抽取等需要严格步骤的任务。
批量推理：对准确率要求高、可接受较高延迟的场景，如自动化考试评分、代码验证、金融计算核查。
限制：对实时低延迟对话场景不友好，通常选用更小的 k 值或放弃该策略。

与相邻概念的区别

Self-Consistency 与多个相关技术有重要区别。

vs 思维链（CoT）：CoT 规定让模型输出逐步推理（格式），Self-Consistency 规定如何利用多条 CoT 结果（采样策略），两者正交叠加。
vs 模型集成（Ensemble）：Self-Consistency 共享同一套权重，多样性仅来自采样随机性；集成通常涉及多个不同模型或 checkpoint。
vs 思维树（Tree of Thoughts）：Self-Consistency 的多条路径彼此独立，属于并行平铺搜索；ToT 在推理中途动态评估并剪枝分支，属于有导向的树搜索，适合对中间步骤有约束的复杂规划。

局限与误区

理解 Self-Consistency 的局限有助于合理使用该方法。

推理成本线性增长：k=20 意味着约 20 倍的 token 消耗，实时场景不友好。
无法纠正系统性偏差：多数投票能纠正随机性错误，但若模型对某类题目存在固定错误模式，多条路径会一致犯同样的错，投票反而强化错误。
常见误区：「多问几次模型就能想得更清楚」——实际上每次采样的知识基础完全相同，Self-Consistency 改善的是覆盖率和稳定性，而非知识本身。
答案提取不健壮：格式规范化往往被低估，提取逻辑不健壮时语义等价的答案会分散票数。

发展脉络

Self-Consistency 出现于大规模语言模型推理研究的早期爆发期，此后影响了多条技术路线。

2022：Wang et al. 在 arXiv 发布论文，作者来自 Google Research，包括 Xuezhi Wang、Jason Wei、Dale Schuurmans、Quoc Le 等人。
2023：论文发表于 ICLR 2023；思维树（Tree of Thoughts）在保留多路径思想的基础上引入结构化搜索。
2023：过程奖励模型（Process Reward Model，PRM）将评分粒度从最终答案细化到每一推理步骤，代表不同技术路线。
2024-2025：测试时计算扩展（test-time compute scaling）成为主流研究方向，Self-Consistency 因简洁性与无需额外训练持续被用作推理增强的基线方法和对比参照。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「多问几次取多数」
「采样多条路径投票」
「零成本涨分技巧」

Self-Consistency（自洽解码）

概述

直觉理解

工作原理

类型与变体

应用场景

与相邻概念的区别

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

大语言模型训练全流程

规划与反思：Self-Reflection 模式

AI 谄媚行为（Sycophancy）：模型为何讨好用户而非说出真相

觉得内容有帮助？请站长喝杯咖啡 ☕

Self-Consistency（自洽解码）

概述

直觉理解

工作原理

类型与变体

应用场景

与相邻概念的区别

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

大语言模型训练全流程

规划与反思：Self-Reflection 模式

AI 谄媚行为（Sycophancy）：模型为何讨好用户而非说出真相