核心要点

  • 能按顺序说清三阶段:预训练(自监督学语言+知识)→ SFT(有监督学指令遵循)→ RLHF/DPO(对齐人类偏好),目标层层递进

  • 能指出每阶段的数据与目标函数不同:预训练用海量无标注文本做 next-token 预测;SFT 用(指令,回答)对;RLHF 用偏好排序数据训奖励模型再做 PPO,DPO 则跳过显式奖励模型直接优化

  • 能解释为什么需要后两步:预训练后的基座只会续写、不会「听话」,对齐阶段教它有用、无害、诚实

  • 能区分基座模型与对齐模型:base model vs instruct/chat model

标准回答

1. 预训练(Pre-training)

在万亿级 token 的无标注语料上做自监督的 next-token 预测,学到语言规律、世界知识与基本推理。产物是「基座模型」,只会续写文本,不会主动遵循指令。这一步算力占比最大,详见 大语言模型训练全流程

2. 有监督微调(SFT)

用人工编写或筛选的(指令, 回答)对继续训练,把基座模型的能力「对齐」到对话与指令遵循格式,让它学会按用户意图作答而非单纯续写。

3. 偏好对齐(RLHF / DPO)

收集人类对多个回答的偏好排序。经典 RLHF 先训奖励模型,再用 PPO 让模型最大化奖励;DPO 则省去显式奖励模型,直接用偏好对做对比式优化,更稳定省算力。目标是让输出更有用、无害、诚实,详见 RLHF(一)

常见误区

⚠️ 常见踩坑

别把 SFT 和 RLHF 混为一谈:SFT 教「格式与意图遵循」,RLHF/DPO 才优化「人类偏好」;也别以为知识主要在对齐阶段灌入——绝大部分知识来自预训练,后两步主要改行为而非记忆。

追问

追问 1DPO 相比经典 RLHF(PPO)有什么优势?

DPO 不需要单独训练奖励模型,也不需要在线采样和复杂的 PPO 强化学习循环,而是把偏好数据直接转成一个分类式损失来优化策略。它训练更稳定、超参更少、算力更省,工程上更易复现;代价是灵活性略低于完整 RLHF 流程。

追问 2什么是对齐税(Alignment Tax)?

指对齐(SFT/RLHF)后模型在某些原始能力(如部分基准测试、知识广度)上出现的退化,是为了换取安全与有用性付出的代价。可通过混入预训练数据、KL 约束、精调数据配比等手段缓解。

追问 3为什么 RLHF 中要加 KL 散度约束?

KL 约束惩罚对齐后的策略偏离 SFT 参考模型过远,防止模型为了刷高奖励而走捷径(reward hacking)、丢失语言流畅性或多样性,相当于在「迎合奖励」和「保持原能力」之间做平衡。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。