RLHF 和 DPO 有什么区别？各自适用什么场景？

Question 1

Accepted Answer

RLHF 三阶段：SFT → 训练奖励模型 RM → PPO 等 RL 对齐（KL 约束防偏离）。 DPO 将偏好优化重写成监督损失，无需 RM 与在线采样，训练更稳定。 维度 RLHF DPO ------ ------ ----- 阶段 3 阶段 2 阶段 稳定性 PPO 易崩溃 相对稳定 算力 RM + RL 成本高 较低 选型：资源有限、快速对齐 → DPO；复杂多目标奖励、可迭代人类反馈 → RLHF 及变体。

Question 2

PPO 中的 KL penalty 为什么重要？

Accepted Answer

防止策略模型为追求奖励偏离 SFT 模型太远，导致能力坍塌（mode collapse）或输出乱码。KL 项把更新约束在「可信区域」内，是对齐训练稳定的关键。

Question 3

偏好数据有噪声时，DPO 和 RLHF 谁更鲁棒？

Accepted Answer

DPO 对错误偏好对较敏感，可能过拟合噪声；RLHF 可通过 RM 平滑和 RL 探索部分缓解，但工程更复杂。实践常先做数据清洗，或用 RLAIF、鲁棒 DPO 变体。

Question 4

如何用 RLAIF 替代部分人类标注？

Accepted Answer

用强模型（或规则）对回答打分生成偏好对，再跑 DPO/RLHF，降低人工成本。需注意 judge 模型偏见会传递到策略模型，需抽样人工审计。

RLHF 和 DPO 有什么区别？各自适用什么场景？

核心要点

简要回答

标准回答

进阶提示

常见误区

追问

延伸学习


维度	RLHF	DPO
阶段	3 阶段	2 阶段
稳定性	PPO 易崩溃	相对稳定
算力	RM + RL 成本高	较低