核心要点
对齐目标:让模型的行为与人类的意图、价值观和安全约束一致,而非只优化代理指标。
外对齐(outer alignment):把人类真实意图正确地转译为可优化的目标/奖励,避免规格设定有误。
内对齐(inner alignment):确保优化器实际学到的目标与设定目标一致,防止学到错误的代理目标。
典型失败:奖励攻击(reward hacking)、规格博弈(specification gaming),以及可扩展监督难题。
标准回答
对齐问题是什么
对齐(Alignment)指让 AI 系统的目标与行为同人类的真实意图与价值保持一致。难点在于:我们只能给模型一个可优化的代理目标,而它未必等于我们真正想要的东西。
外对齐 vs 内对齐
- 外对齐:设计的目标/奖励函数是否真正反映人类意图。若指标设错,模型会「照做却跑偏」。
- 内对齐:训练得到的模型内部实际追求的目标,是否等于我们设定的目标。优化器可能学到一个在训练分布上等效、但在新场景下偏离的代理目标。
常见失败模式
- 奖励攻击 / 规格博弈:模型钻目标漏洞拿高分却不解决真问题,例如迎合评分者而非给出正确答案。
- 可扩展监督(scalable oversight):当任务超出人类直接评判能力时,如何持续提供可靠反馈。
主流缓解思路
RLHF、Constitutional AI、对抗评测与可解释性研究等,从目标设定、反馈质量到内部机制多管齐下。需注意对齐常带来一定能力或成本代价(对齐税),且没有单一银弹。
常见误区
⚠️ 常见踩坑
别把对齐等同于「不说脏话/过滤敏感词」——那只是表层安全。对齐核心是目标层面的一致性,外对齐设对了目标,内对齐才保证模型真的在追求它,二者缺一不可。
追问
追问 1:奖励攻击(reward hacking)和规格博弈是一回事吗?
两者高度重叠:都指模型钻了目标定义的漏洞,在代理指标上拿高分却没达成真实意图。奖励攻击更强调强化学习里钻奖励函数空子;规格博弈更泛指任何「满足字面规格却违背意图」的行为。本质都是外对齐没把意图说清楚。
追问 2:什么是可扩展监督,为什么它重要?
可扩展监督指在任务复杂到人类难以直接评判正确性时,仍能给模型提供可靠监督信号的方法,如辩论、递归奖励建模、用 AI 辅助评估 AI。它重要是因为越强的模型越可能在人类看不懂的领域作答,没有可扩展监督,反馈质量会成为对齐瓶颈。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。