对齐（Alignment）

让 AI 符合人类意图

亦作、亦称：Alignment

AI 对齐（AI Alignment）是研究如何使人工智能系统的行为、目标和输出与人类意图、价值观保持一致的技术与理论体系。这一问题横跨安全、伦理与工程多个维度，随着大语言模型的普及，已从哲学思辨演变为可落地的工程实践。

概述

对齐要解决的根本问题是：如何确保 AI 系统真正做到人类「想让它做」的事，而非仅执行字面指令或优化代理目标。

对齐研究从哲学思辨走向工程实践，经历了数个关键阶段。

2014：Nick Bostrom 出版《超级智能》，系统论述 AI 目标错配的存在性风险；Stuart Russell 建议 MIRI 采用「对齐」一词替代「友好 AI」
2016：Amodei 等发表「Concrete Problems in AI Safety」，将对齐问题分解为可研究的工程子问题；Stuart Russell 在伯克利创立人类兼容 AI 中心（CHAI）
2017：Christiano 等提出基于人类偏好的强化学习框架，为 RLHF 奠定理论基础
2022：OpenAI 发布 InstructGPT，将 RLHF 大规模工程化；Anthropic 发表 Constitutional AI 论文；ChatGPT 年末发布，对齐话题进入大众视野
2023 至今：DPO、GRPO、过程奖励模型（PRM）、可扩展监督等更高效方法相继涌现

当前对齐工程形成了从数据、训练到推理的多层技术栈。

SFT（监督微调）：在人工标注的高质量示范数据上做有监督学习，是 RLHF 的前置步骤，直接注入期望行为
RLHF（基于人类反馈的强化学习）：人类对多条输出排序 → 训练奖励模型 → 用 PPO 优化语言模型；InstructGPT/ChatGPT 的核心技术
Constitutional AI：Anthropic 提出，用一套原则（「宪法」）让模型自我批判并修订输出，本质上是 RLAIF（AI 反馈替代人工反馈）的一种形式
DPO（直接偏好优化）：绕过奖励模型，直接在偏好数据对上优化策略，计算更高效
可扩展监督（Scalable Oversight）：研究 AI 能力超越人类后如何保持有效监督，包括辩论（debate）等方案

对齐领域存在若干常见认知偏差，需要明确区分。

对齐与若干相关概念在边界上容易混淆。

随着模型能力快速提升，对齐研究前沿正在向更深层次延伸。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。