标准回答
定义
指令微调是用大量多样的(指令, 期望回答)样本对预训练基座模型做有监督微调(SFT)。基座模型只会续写,指令微调把它的行为对齐到「理解请求并给出期望回答」。
它如何让模型学会听从指令
训练目标仍是标准的 next-token 监督,但样本覆盖翻译、摘要、问答、分类、代码、改写等成百上千种任务,且都被组织成「指令 + 回答」的统一格式。模型在拟合这些样本时,学到的不是某一个任务,而是「把任务描述解析为对应输出」这一通用模式。
为什么能泛化到新指令
当微调任务足够多样,模型会把「遵循指令」抽象成一种元能力,从而在训练中未见过的指令上也能零样本作答。这正是 instruct/chat 模型比基座模型「好用」的核心原因,详见 大语言模型训练全流程。
常见误区
⚠️ 常见踩坑
别把指令微调等同于「灌知识」——它主要教模型遵循指令的格式与意图,知识仍主要来自预训练;也别误以为它等于 RLHF,指令微调是有监督的 SFT,不涉及偏好奖励信号。
追问
追问 1:指令微调和 RLHF 是什么关系?
两者是对齐流程中的前后阶段。指令微调(SFT)先教模型遵循指令、输出合理格式;RLHF 在此基础上用人类偏好进一步优化「哪个回答更好」,让输出更有用、无害。先 SFT 再 RLHF 是标准顺序。
追问 2:指令数据的多样性为什么比数量更重要?
泛化来自任务覆盖面而非单任务样本堆量。若任务种类单一,模型只是过拟合到少数模式;当指令类型、措辞、领域足够多样时,模型才能抽象出「遵循指令」的通用能力,对未见指令也能作答。质量与去重同样关键。
追问 3:什么是 self-instruct / 合成指令数据?
用一个能力较强的 LLM 自动生成(指令, 回答)对来扩充指令微调数据,降低人工标注成本。需配合过滤、去重和质量校验,否则会引入噪声或放大教师模型的偏差。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。