ORPO

把 SFT 和偏好优化合一起

亦作、亦称：Odds Ratio Preference Optimization

ORPO（Odds Ratio Preference Optimization）是一种将监督微调（SFT）与偏好对齐合并为单阶段训练的大语言模型对齐算法，由 Jiwoo Hong、Noah Lee、James Thorne 于 2024 年提出。它在自回归负对数似然损失中直接附加一个基于胜算比（odds ratio）的偏好惩罚项，使模型无需独立的参考模型即可同步学习目标风格并抑制被拒绝的输出，大幅简化了传统 RLHF 和 DPO 的多阶段训练流程。

概述

动机与背景

传统 LLM 对齐流程需要多个串联阶段，训练成本高且工程复杂。

RLHF 需要预训练→SFT→奖励模型训练→PPO 强化学习四个阶段，资源消耗极大
DPO 简化了强化学习部分，但仍需先完成 SFT 预热，再依赖冻结的参考模型计算 KL 散度惩罚，属于两阶段流程
研究者发现：在 SFT 阶段引入轻量级偏好惩罚信号，已足以引导模型形成偏好方向，独立的对齐阶段并非必须
ORPO 的目标正是将两阶段合并为单一联合目标，彻底消除参考模型的存在，降低显存和工程门槛

核心机制：胜算比惩罚

ORPO 的联合损失由 SFT 分量与 odds ratio 惩罚分量线性叠加而成。

SFT 分量：标准自回归交叉熵损失，驱动模型在「被选中回复（chosen）」上最大化对数似然
Odds Ratio 分量：对每对「chosen / rejected」计算模型在两类回复上的生成概率胜算（odds = p / (1−p)），取对数之差后施以 sigmoid，形成偏好对比损失
联合目标：L = L_SFT + λ · L_OR，超参数 λ 控制偏好惩罚强度；原论文实验中 λ 通常取较小值（约 0.1）
无需参考模型：惩罚项直接作用于当前策略自身的输出概率，不需要冻结任何额外网络副本
长度鲁棒性：采用序列级平均 token 概率计算 odds，一定程度上缓解长序列被惩罚更重的长度偏差问题

与 DPO / RLHF 的对比

ORPO 在训练阶段数和依赖组件上与主流对齐方法存在系统性差异。

阶段数：RLHF 三至四阶段、DPO 两阶段（SFT → DPO），ORPO 单阶段，无需预热 SFT checkpoint
参考模型：RLHF 和 DPO 均需冻结参考模型副本占用显存，ORPO 完全不需要，显存占用更低
奖励模型：RLHF 需要独立训练奖励模型；DPO 和 ORPO 均不需要
KL 约束：DPO 通过参考模型隐式施加 KL 惩罚，防止策略偏移过大；ORPO 缺少这一约束，超参数 λ 过大时存在训练不稳定风险
数据格式：三种方法均使用「提示 + chosen + rejected」偏好三元组，格式兼容，可复用同一数据集

实验效果

原论文在 125M 至 7B 规模的多款模型上验证了 ORPO 的竞争力。

仅使用 UltraFeedback 数据集进行单次训练，Phi-2（2.7B）、Llama-2（7B）、Mistral（7B）均超越参数量更大的同类对齐模型
AlpacaEval 2.0：Mistral-7B-ORPO 达到 12.20%，展示出优秀的指令遵循对齐能力
IFEval（结构化指令跟随）：达到 66.19%，说明 ORPO 有效提升了模型的约束遵循能力
MT-Bench：评分 7.32，综合对话质量达到较强基线水平
论文同时给出理论分析，证明 odds ratio 是衡量偏好风格差异的数学上合理度量

优势与局限

ORPO 的单阶段无参考模型设计带来明显工程优势，但也存在固有局限。

优势：无参考模型副本，显存占用更低，适合单卡或小集群的轻量对齐训练
优势：省去 SFT 预热步骤，尤其在下游任务与预训练数据分布差距较大时，可直接跳过预热阶段
优势：Hugging Face TRL 库已原生集成 ORPOTrainer，支持 PEFT/LoRA 组合使用，开箱即用
局限：缺少显式 KL 约束，超参数 λ 过大时训练稳定性不如 DPO
局限：偏好惩罚项对 λ 的取值较敏感，缺乏像 DPO 中 β 那样成熟的经验调参准则
局限：仍依赖高质量「chosen / rejected」偏好对数据，数据质量直接决定对齐效果

生态与发展脉络

ORPO 是偏好优化方法持续演进链条上的重要节点，提出后被主流框架迅速集成。

2022：InstructGPT 确立 SFT + RM + PPO 三阶段 RLHF 范式
2023：DPO（斯坦福）将对齐简化为无需奖励模型的对比损失，发表于 NeurIPS 2023
2024 年 3 月：Hong 等人发布 ORPO（arXiv:2403.07691），单阶段无参考模型，发表于 EMNLP 2024
2024 年：SimPO（长度归一化无参考模型）、GRPO（DeepSeek-R1 使用，面向可验证推理）等方案进一步分化偏好优化路线
2024–2025 年：TRL 等主流训练库原生集成 ORPO；ORPO-Distill 将其思路拓展至跨架构知识蒸馏场景

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「把 SFT 和偏好优化合一起」
「单阶段对齐方法」
「比 DPO 流程更短」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

ORPO

概述

动机与背景

核心机制：胜算比惩罚

与 DPO / RLHF 的对比

实验效果

优势与局限

生态与发展脉络

常见误解

相关术语

延伸阅读

LLM 微调技术全景：LoRA、QLoRA、DPO 与参数高效微调实战

RLHF（一）：基于人类反馈的强化学习

AI 对齐（二）：RLHF 与伦理框架

觉得内容有帮助？请站长喝杯咖啡 ☕