标准回答
核心思想
Constitutional AI 用一组写明的原则(「宪法」,如有用、无害、诚实)来指导对齐,让模型依据这些原则自我批判并修订自己的回答,从而大幅减少对人工有害内容标注的依赖。
两个阶段
- 监督阶段:让模型对自己可能有害的回答按宪法做自我批判,再修订成更安全的版本,用这些修订样本做微调。
- 强化阶段(RLAIF):由 AI 而非人类,依据宪法比较两个回答谁更好,生成偏好数据训练奖励模型,再做 RL 优化。
与 RLHF 的区别与价值
RLHF 偏好信号来自人工标注,CAI 把这一步主要交给 AI,按明文原则自动生成。好处是降低人工标注(尤其有害样本)成本、原则透明可审计、易迭代,能在无害与有用之间做显式权衡。
常见误区
⚠️ 常见踩坑
别把宪法 AI 说成「完全不用人类」——宪法原则本身由人编写、RL 流程仍需人监督评估;它替代的是大规模有害内容人工标注,而非整个对齐流程中的人类参与。
追问
追问 1:RLAIF 相比 RLHF 最大的风险是什么?
偏好信号由模型自己生成,可能放大模型既有偏差或对宪法的误解,形成「自我强化」的盲点。需用多样化原则、人类抽检和红队测试来校正。
追问 2:「宪法」具体是什么形式?
通常是一组自然语言原则/规则条目,可引用人权宣言、平台政策等。每条用于指导自我批判时的提问(如「这个回答是否有害?据原则改写」),可按场景增删迭代。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。