核心要点

  • 能下定义:在大量多样化的(指令, 期望回答)对上对基座模型做有监督微调,让它学会「遵循指令」这一通用行为

  • 能说清机制:本质仍是 next-token 监督学习,但样本覆盖翻译、摘要、问答、改写等多种任务,模型学到「任务描述→对应输出」的映射模式

  • 能讲清收益:关键是跨任务泛化——在足够多任务上微调后,模型能零样本完成训练时没见过的新指令

  • 能区分指令微调与领域微调:前者教「听话」这一元能力,后者注入特定领域知识/风格

标准回答

定义

指令微调是用大量多样的(指令, 期望回答)样本对预训练基座模型做有监督微调(SFT)。基座模型只会续写,指令微调把它的行为对齐到「理解请求并给出期望回答」。

它如何让模型学会听从指令

训练目标仍是标准的 next-token 监督,但样本覆盖翻译、摘要、问答、分类、代码、改写等成百上千种任务,且都被组织成「指令 + 回答」的统一格式。模型在拟合这些样本时,学到的不是某一个任务,而是「把任务描述解析为对应输出」这一通用模式。

为什么能泛化到新指令

当微调任务足够多样,模型会把「遵循指令」抽象成一种元能力,从而在训练中未见过的指令上也能零样本作答。这正是 instruct/chat 模型比基座模型「好用」的核心原因,详见 大语言模型训练全流程

常见误区

⚠️ 常见踩坑

别把指令微调等同于「灌知识」——它主要教模型遵循指令的格式与意图,知识仍主要来自预训练;也别误以为它等于 RLHF,指令微调是有监督的 SFT,不涉及偏好奖励信号。

追问

追问 1指令微调和 RLHF 是什么关系?

两者是对齐流程中的前后阶段。指令微调(SFT)先教模型遵循指令、输出合理格式;RLHF 在此基础上用人类偏好进一步优化「哪个回答更好」,让输出更有用、无害。先 SFT 再 RLHF 是标准顺序。

追问 2指令数据的多样性为什么比数量更重要?

泛化来自任务覆盖面而非单任务样本堆量。若任务种类单一,模型只是过拟合到少数模式;当指令类型、措辞、领域足够多样时,模型才能抽象出「遵循指令」的通用能力,对未见指令也能作答。质量与去重同样关键。

追问 3什么是 self-instruct / 合成指令数据?

用一个能力较强的 LLM 自动生成(指令, 回答)对来扩充指令微调数据,降低人工标注成本。需配合过滤、去重和质量校验,否则会引入噪声或放大教师模型的偏差。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。