标准回答
1. 预训练(Pre-training)
在万亿级 token 的无标注语料上做自监督的 next-token 预测,学到语言规律、世界知识与基本推理。产物是「基座模型」,只会续写文本,不会主动遵循指令。这一步算力占比最大,详见 大语言模型训练全流程。
2. 有监督微调(SFT)
用人工编写或筛选的(指令, 回答)对继续训练,把基座模型的能力「对齐」到对话与指令遵循格式,让它学会按用户意图作答而非单纯续写。
3. 偏好对齐(RLHF / DPO)
收集人类对多个回答的偏好排序。经典 RLHF 先训奖励模型,再用 PPO 让模型最大化奖励;DPO 则省去显式奖励模型,直接用偏好对做对比式优化,更稳定省算力。目标是让输出更有用、无害、诚实,详见 RLHF(一)。
常见误区
⚠️ 常见踩坑
别把 SFT 和 RLHF 混为一谈:SFT 教「格式与意图遵循」,RLHF/DPO 才优化「人类偏好」;也别以为知识主要在对齐阶段灌入——绝大部分知识来自预训练,后两步主要改行为而非记忆。
追问
追问 1:DPO 相比经典 RLHF(PPO)有什么优势?
DPO 不需要单独训练奖励模型,也不需要在线采样和复杂的 PPO 强化学习循环,而是把偏好数据直接转成一个分类式损失来优化策略。它训练更稳定、超参更少、算力更省,工程上更易复现;代价是灵活性略低于完整 RLHF 流程。
追问 2:什么是对齐税(Alignment Tax)?
指对齐(SFT/RLHF)后模型在某些原始能力(如部分基准测试、知识广度)上出现的退化,是为了换取安全与有用性付出的代价。可通过混入预训练数据、KL 约束、精调数据配比等手段缓解。
追问 3:为什么 RLHF 中要加 KL 散度约束?
KL 约束惩罚对齐后的策略偏离 SFT 参考模型过远,防止模型为了刷高奖励而走捷径(reward hacking)、丢失语言流畅性或多样性,相当于在「迎合奖励」和「保持原能力」之间做平衡。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。