核心要点

  • 能否说清 RLHF 三阶段管线(SFT → RM → PPO

  • 理解 DPO 如何用偏好对直接优化,无需单独 RM

  • 知道两者在稳定性、算力成本、工程复杂度上的 trade-off

  • 能结合业务场景给出选型建议

简要回答

RLHF 先训练奖励模型评判人类偏好,再用 PPO 等强化学习让策略模型最大化奖励;DPO 则把偏好优化写成监督学习目标,直接用偏好数据对更新模型,跳过 RM 和 RL 循环。DPO 更简单稳定,RLHF 上限更高但工程复杂。

标准回答

RLHF 三阶段:SFT → 训练奖励模型 RM → PPO 等 RL 对齐(KL 约束防偏离)。

DPO 将偏好优化重写成监督损失,无需 RM 与在线采样,训练更稳定。

维度 RLHF DPO
阶段 3 阶段 2 阶段
稳定性 PPO 易崩溃 相对稳定
算力 RM + RL 成本高 较低

选型:资源有限、快速对齐 → DPO;复杂多目标奖励、可迭代人类反馈 → RLHF 及变体。

进阶提示

💡 一句话理解

加分:提到 IPO、KTO、ORPO 等 DPO 变体。

常见误区

⚠️ 常见踩坑

DPO 不是「免训练奖励模型的 RLHF」那么简单——它有一个隐式奖励(log 概率比),但没有在线采样与探索,对偏好数据噪声更敏感,上限通常不及调好的 RLHF。另一个常见错误是忽略 KL/参考模型约束:无论 PPO 还是 DPO 都要锚定 SFT/参考策略,否则模型会为刷奖励而能力坍塌、输出退化。

追问

追问 1PPO 中的 KL penalty 为什么重要?

防止策略模型为追求奖励偏离 SFT 模型太远,导致能力坍塌(mode collapse)或输出乱码。KL 项把更新约束在「可信区域」内,是对齐训练稳定的关键。

追问 2偏好数据有噪声时,DPO 和 RLHF 谁更鲁棒?

DPO 对错误偏好对较敏感,可能过拟合噪声;RLHF 可通过 RM 平滑和 RL 探索部分缓解,但工程更复杂。实践常先做数据清洗,或用 RLAIF、鲁棒 DPO 变体。

追问 3如何用 RLAIF 替代部分人类标注?

用强模型(或规则)对回答打分生成偏好对,再跑 DPO/RLHF,降低人工成本。需注意 judge 模型偏见会传递到策略模型,需抽样人工审计。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。