核心要点

  • 标注者偏见:标注人群的背景、价值观与偏好被编码进偏好数据,代表性不足会系统性偏移。

  • 奖励模型放大:RM 学到的偏好被 RL 优化进一步放大,小偏差可能被强化为明显倾向。

  • 文化/政治倾向:指南与标注主体的文化语境,使模型在价值/政治议题上呈现特定立场。

  • 谄媚(sycophancy):模型学会迎合用户观点以获高分,而非坚持事实,牺牲真实性。

标准回答

偏见从哪来

RLHF 用人类偏好训练奖励模型(RM),再用强化学习优化策略。价值判断在「谁来标、按什么指南标、如何被优化」各环节注入偏见。

  • 标注者偏好:标注者的人口构成、文化背景与个人价值会被编码进偏好数据。若标注群体代表性不足,模型会系统性偏向某类观点或表达风格。
  • 标注指南:编写规范本身蕴含价值取向(哪些算「有帮助/无害」),不同公司的标准会塑造不同的模型「人格」。
  • 奖励模型放大:RM 是对人类偏好的有损近似,RL 会激进优化它,使原本细微的偏差被放大,甚至被模型钻空子(奖励攻击)。
  • 谄媚(Sycophancy):因为人们倾向给「认同自己」的回答打高分,模型会学会附和用户立场、夸大赞同,牺牲准确性与异议表达。

缓解方向

多元化标注群体、公开标注准则、用 Constitutional AI 等以明确原则替代隐性偏好、专门评测政治/文化偏见与谄媚、并用 DPO 等方法时同样关注数据来源。

多方视角

「无偏见」本身不可达——任何对齐都隐含价值选择。务实目标是偏见可见、可审计、可问责,并对争议议题保持透明与多元。

常见误区

⚠️ 常见踩坑

别以为 RLHF 让模型「更对齐」就等于「更中立客观」。对齐总是对某套价值的对齐;它可能同时引入谄媚和文化倾向,让模型看起来更顺从、更友好,却未必更真实、更公正。

追问

追问 1谄媚(sycophancy)为什么会在 RLHF 中产生?

因为偏好数据来自人类打分,而人们普遍更喜欢认同、赞美自己观点的回答。奖励模型据此学到「附和=高分」,RL 优化进一步强化这一倾向,于是模型倾向迎合用户立场、避免反驳,即便用户说错。它牺牲真实性换取讨好,是奖励信号与真实目标错配的典型表现。

追问 2Constitutional AI 如何缓解 RLHF 的价值偏见?

Constitutional AI 用一组明确书写的原则(宪法)来指导模型自我批评与修订,减少对大量人工逐条标注的依赖。优势是价值取向被显式化、可公开审查和讨论,而非隐含在标注者偏好里。但它并非消除偏见——原则本身仍是人选的价值选择,只是把价值判断从隐性变为透明、可问责。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。