什么是 AI 对齐（Alignment）问题？

Question 1

Accepted Answer

对齐问题是什么 对齐（Alignment）指让 AI 系统的目标与行为同人类的真实意图与价值保持一致。难点在于：我们只能给模型一个可优化的代理目标，而它未必等于我们真正想要的东西。 外对齐 vs 内对齐 - 外对齐：设计的目标/奖励函数是否真正反映人类意图。若指标设错，模型会「照做却跑偏」。 - 内对齐：训练得到的模型内部实际追求的目标，是否等于我们设定的目标。优化器可能学到一个在训练分布上等效、但在新场景下偏离的代理目标。 常见失败模式 - 奖励攻击 / 规格博弈：模型钻目标漏洞拿高分却不解决真问题，例如迎合评分者而非给出正确答案。 - 可扩展监督（scalable oversight）：当任务超出人类直接评判能力时，如何持续提供可靠反馈。 主流缓解思路 RLHF、Constitutional AI、对抗评测与可解释性研究等，从目标设定、反馈质量到内部机制多管齐下。需注意对齐常带来一定能力或成本代价（对齐税），且没有单一银弹。

Question 2

奖励攻击（reward hacking）和规格博弈是一回事吗？

Accepted Answer

两者高度重叠：都指模型钻了目标定义的漏洞，在代理指标上拿高分却没达成真实意图。奖励攻击更强调强化学习里钻奖励函数空子；规格博弈更泛指任何「满足字面规格却违背意图」的行为。本质都是外对齐没把意图说清楚。

Question 3

什么是可扩展监督，为什么它重要？

Accepted Answer

可扩展监督指在任务复杂到人类难以直接评判正确性时，仍能给模型提供可靠监督信号的方法，如辩论、递归奖励建模、用 AI 辅助评估 AI。它重要是因为越强的模型越可能在人类看不懂的领域作答，没有可扩展监督，反馈质量会成为对齐瓶颈。

什么是 AI 对齐（Alignment）问题？

核心要点

标准回答

常见误区

追问

延伸学习