Constitutional AI

AI 按宪法自我批评

亦作、亦称：CAI · 宪法 AI

Constitutional AI（宪法式 AI，CAI）是 Anthropic 于 2022 年提出的一种 AI 对齐训练方法，通过一套书面原则（「宪法」）驱动模型对自身输出进行批评与修订，在大幅减少人工有害样本标注的前提下实现无害性对齐，是 Claude 系列模型的核心训练机制之一。

概述

传统 RLHF 对齐依赖大量人工对有害内容逐条打标，成本高且对标注者造成心理负担。

「宪法」是一组自然语言书写的行为准则，用于指导模型自我判断输出是否符合期望。

CAI 由两个串联阶段组成，分别对应监督微调与强化学习。

阶段一 SL-CAI（监督学习）：对红队提示生成初始回复 → 模型依据随机抽取的宪法原则批评该回复 → 模型生成修订版回复 → 循环多轮后用修订数据做 SFT（监督微调）
阶段二 RLAIF（AI 反馈强化学习）：让 SL-CAI 模型对候选回复对打分，判断哪条更符合原则 → 用 AI 生成的偏好标签训练偏好模型（Preference Model）→ 以 PPO 对策略模型进一步优化
人工介入最小化：人类只需撰写原则集合，无需对每条有害样本两两打标
首次命名 RLAIF：该论文是学术界正式系统描述并大规模实践「AI 反馈强化学习（RLAIF）」的早期文献

与 RLHF 相比，CAI 在可扩展性和透明性上具有明显优势。

CAI 并非万能，其效果高度依赖宪法设计质量与基础模型能力。

从提出到持续演进，CAI 对学术界和工业界产生了广泛影响。

2022 年 12 月：Bai et al.（52 位作者）在 arXiv 发布论文，首次系统描述 CAI 方法（arXiv:2212.08073）
2023 年：Anthropic 将 CAI 应用于 Claude 系列模型；同年探索「集体宪法（Collective Constitutional AI）」，引入公众参与制定原则
2023—2024 年：多项后续研究评估 RLAIF 偏好标签质量与人工标注的一致性，CAI 成为对齐领域重要基线
2024 年至今：CAI 思路与 DPO、GRPO 等新型对齐方法结合，持续演化；Anthropic 将其视为实现三 H 目标的关键机制

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。