Constitutional AI（宪法 AI）如何对齐模型？

Question 1

Accepted Answer

核心思想 Constitutional AI 用一组写明的原则（「宪法」，如有用、无害、诚实）来指导对齐，让模型依据这些原则自我批判并修订自己的回答，从而大幅减少对人工有害内容标注的依赖。 两个阶段 - 监督阶段：让模型对自己可能有害的回答按宪法做自我批判，再修订成更安全的版本，用这些修订样本做微调。 - 强化阶段（RLAIF）：由 AI 而非人类，依据宪法比较两个回答谁更好，生成偏好数据训练奖励模型，再做 RL 优化。 与 RLHF 的区别与价值 RLHF 偏好信号来自人工标注，CAI 把这一步主要交给 AI，按明文原则自动生成。好处是降低人工标注（尤其有害样本）成本、原则透明可审计、易迭代，能在无害与有用之间做显式权衡。

Question 2

RLAIF 相比 RLHF 最大的风险是什么？

Accepted Answer

偏好信号由模型自己生成，可能放大模型既有偏差或对宪法的误解，形成「自我强化」的盲点。需用多样化原则、人类抽检和红队测试来校正。

Question 3

「宪法」具体是什么形式？

Accepted Answer

通常是一组自然语言原则/规则条目，可引用人权宣言、平台政策等。每条用于指导自我批判时的提问（如「这个回答是否有害？据原则改写」），可按场景增删迭代。

Constitutional AI（宪法 AI）如何对齐模型？

核心要点

标准回答

常见误区

追问

延伸学习