核心要点

  • 对齐目标:让模型的行为与人类的意图、价值观和安全约束一致,而非只优化代理指标。

  • 外对齐(outer alignment):把人类真实意图正确地转译为可优化的目标/奖励,避免规格设定有误。

  • 内对齐(inner alignment):确保优化器实际学到的目标与设定目标一致,防止学到错误的代理目标。

  • 典型失败:奖励攻击(reward hacking)、规格博弈(specification gaming),以及可扩展监督难题。

标准回答

对齐问题是什么

对齐(Alignment)指让 AI 系统的目标与行为同人类的真实意图与价值保持一致。难点在于:我们只能给模型一个可优化的代理目标,而它未必等于我们真正想要的东西。

外对齐 vs 内对齐

  • 外对齐:设计的目标/奖励函数是否真正反映人类意图。若指标设错,模型会「照做却跑偏」。
  • 内对齐:训练得到的模型内部实际追求的目标,是否等于我们设定的目标。优化器可能学到一个在训练分布上等效、但在新场景下偏离的代理目标。

常见失败模式

  • 奖励攻击 / 规格博弈:模型钻目标漏洞拿高分却不解决真问题,例如迎合评分者而非给出正确答案。
  • 可扩展监督(scalable oversight):当任务超出人类直接评判能力时,如何持续提供可靠反馈。

主流缓解思路

RLHFConstitutional AI、对抗评测与可解释性研究等,从目标设定、反馈质量到内部机制多管齐下。需注意对齐常带来一定能力或成本代价(对齐税),且没有单一银弹。

常见误区

⚠️ 常见踩坑

别把对齐等同于「不说脏话/过滤敏感词」——那只是表层安全。对齐核心是目标层面的一致性,外对齐设对了目标,内对齐才保证模型真的在追求它,二者缺一不可。

追问

追问 1奖励攻击(reward hacking)和规格博弈是一回事吗?

两者高度重叠:都指模型钻了目标定义的漏洞,在代理指标上拿高分却没达成真实意图。奖励攻击更强调强化学习里钻奖励函数空子;规格博弈更泛指任何「满足字面规格却违背意图」的行为。本质都是外对齐没把意图说清楚。

追问 2什么是可扩展监督,为什么它重要?

可扩展监督指在任务复杂到人类难以直接评判正确性时,仍能给模型提供可靠监督信号的方法,如辩论、递归奖励建模、用 AI 辅助评估 AI。它重要是因为越强的模型越可能在人类看不懂的领域作答,没有可扩展监督,反馈质量会成为对齐瓶颈。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。