标准回答
RLHF 三阶段:SFT → 训练奖励模型 RM → PPO 等 RL 对齐(KL 约束防偏离)。
DPO 将偏好优化重写成监督损失,无需 RM 与在线采样,训练更稳定。
| 维度 | RLHF | DPO |
|---|---|---|
| 阶段 | 3 阶段 | 2 阶段 |
| 稳定性 | PPO 易崩溃 | 相对稳定 |
| 算力 | RM + RL 成本高 | 较低 |
选型:资源有限、快速对齐 → DPO;复杂多目标奖励、可迭代人类反馈 → RLHF 及变体。
常见误区
⚠️ 常见踩坑
DPO 不是「免训练奖励模型的 RLHF」那么简单——它有一个隐式奖励(log 概率比),但没有在线采样与探索,对偏好数据噪声更敏感,上限通常不及调好的 RLHF。另一个常见错误是忽略 KL/参考模型约束:无论 PPO 还是 DPO 都要锚定 SFT/参考策略,否则模型会为刷奖励而能力坍塌、输出退化。
追问
追问 1:PPO 中的 KL penalty 为什么重要?
防止策略模型为追求奖励偏离 SFT 模型太远,导致能力坍塌(mode collapse)或输出乱码。KL 项把更新约束在「可信区域」内,是对齐训练稳定的关键。
追问 2:偏好数据有噪声时,DPO 和 RLHF 谁更鲁棒?
DPO 对错误偏好对较敏感,可能过拟合噪声;RLHF 可通过 RM 平滑和 RL 探索部分缓解,但工程更复杂。实践常先做数据清洗,或用 RLAIF、鲁棒 DPO 变体。
追问 3:如何用 RLAIF 替代部分人类标注?
用强模型(或规则)对回答打分生成偏好对,再跑 DPO/RLHF,降低人工成本。需注意 judge 模型偏见会传递到策略模型,需抽样人工审计。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- LangChain
最流行的 LLM 应用开发框架,137K+ stars。提供链式编排、RAG 检索增强生成、Agent 构建等核心能力,覆盖 Python 和 JavaScript 双语言生态,是构建 LLM 应用的基础设施