核心要点

  • 能讲清核心思想:用一组明文「宪法」原则替代大量人工标注,让模型据原则自我批判、修订有害回答

  • 能说出两阶段:监督阶段做自我批判+修订生成更安全样本微调;RL 阶段用 AI 而非人类来比较回答好坏(RLAIF)

  • 能说出与 RLHF 的区别:偏好信号主要由 AI 依宪法生成,减少人工有害内容标注的成本与心理负担

  • 能说出价值:原则透明可审计、可迭代,便于在无害与有用之间显式权衡

标准回答

核心思想

Constitutional AI 用一组写明的原则(「宪法」,如有用、无害、诚实)来指导对齐,让模型依据这些原则自我批判并修订自己的回答,从而大幅减少对人工有害内容标注的依赖。

两个阶段

  • 监督阶段:让模型对自己可能有害的回答按宪法做自我批判,再修订成更安全的版本,用这些修订样本做微调。
  • 强化阶段(RLAIF):由 AI 而非人类,依据宪法比较两个回答谁更好,生成偏好数据训练奖励模型,再做 RL 优化。

与 RLHF 的区别与价值

RLHF 偏好信号来自人工标注,CAI 把这一步主要交给 AI,按明文原则自动生成。好处是降低人工标注(尤其有害样本)成本、原则透明可审计、易迭代,能在无害与有用之间做显式权衡。

常见误区

⚠️ 常见踩坑

别把宪法 AI 说成「完全不用人类」——宪法原则本身由人编写、RL 流程仍需人监督评估;它替代的是大规模有害内容人工标注,而非整个对齐流程中的人类参与。

追问

追问 1RLAIF 相比 RLHF 最大的风险是什么?

偏好信号由模型自己生成,可能放大模型既有偏差或对宪法的误解,形成「自我强化」的盲点。需用多样化原则、人类抽检和红队测试来校正。

追问 2「宪法」具体是什么形式?

通常是一组自然语言原则/规则条目,可引用人权宣言、平台政策等。每条用于指导自我批判时的提问(如「这个回答是否有害?据原则改写」),可按场景增删迭代。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。