从预训练到对齐，大模型训练分哪几个阶段？

Question 1

Accepted Answer

1. 预训练（Pre-training） 在万亿级 token 的无标注语料上做自监督的 next-token 预测，学到语言规律、世界知识与基本推理。产物是「基座模型」，只会续写文本，不会主动遵循指令。这一步算力占比最大，详见 大语言模型训练全流程。 2. 有监督微调（SFT） 用人工编写或筛选的（指令, 回答）对继续训练，把基座模型的能力「对齐」到对话与指令遵循格式，让它学会按用户意图作答而非单纯续写。 3. 偏好对齐（RLHF / DPO） 收集人类对多个回答的偏好排序。经典 RLHF 先训奖励模型，再用 PPO 让模型最大化奖励；DPO 则省去显式奖励模型，直接用偏好对做对比式优化，更稳定省算力。目标是让输出更有用、无害、诚实，详见 RLHF（一）。

Question 2

DPO 相比经典 RLHF（PPO）有什么优势？

Accepted Answer

DPO 不需要单独训练奖励模型，也不需要在线采样和复杂的 PPO 强化学习循环，而是把偏好数据直接转成一个分类式损失来优化策略。它训练更稳定、超参更少、算力更省，工程上更易复现；代价是灵活性略低于完整 RLHF 流程。

Question 3

什么是对齐税（Alignment Tax）？

Accepted Answer

指对齐（SFT/RLHF）后模型在某些原始能力（如部分基准测试、知识广度）上出现的退化，是为了换取安全与有用性付出的代价。可通过混入预训练数据、KL 约束、精调数据配比等手段缓解。

Question 4

为什么 RLHF 中要加 KL 散度约束？

Accepted Answer

KL 约束惩罚对齐后的策略偏离 SFT 参考模型过远，防止模型为了刷高奖励而走捷径（reward hacking）、丢失语言流畅性或多样性，相当于在「迎合奖励」和「保持原能力」之间做平衡。

从预训练到对齐，大模型训练分哪几个阶段？

核心要点

标准回答

常见误区

追问

延伸学习