什么是指令微调（Instruction Tuning）？它如何让模型学会听从指令？

Question 1

Accepted Answer

定义

指令微调是用大量多样的（指令, 期望回答）样本对预训练基座模型做有监督微调（SFT）。基座模型只会续写，指令微调把它的行为对齐到「理解请求并给出期望回答」。

它如何让模型学会听从指令

训练目标仍是标准的 next-token 监督，但样本覆盖翻译、摘要、问答、分类、代码、改写等成百上千种任务，且都被组织成「指令 + 回答」的统一格式。模型在拟合这些样本时，学到的不是某一个任务，而是「把任务描述解析为对应输出」这一通用模式。

为什么能泛化到新指令

当微调任务足够多样，模型会把「遵循指令」抽象成一种元能力，从而在训练中未见过的指令上也能零样本作答。这正是 instruct/chat 模型比基座模型「好用」的核心原因，详见大语言模型训练全流程。

Question 2

指令微调和 RLHF 是什么关系？

Accepted Answer

两者是对齐流程中的前后阶段。指令微调（SFT）先教模型遵循指令、输出合理格式；RLHF 在此基础上用人类偏好进一步优化「哪个回答更好」，让输出更有用、无害。先 SFT 再 RLHF 是标准顺序。

Question 3

指令数据的多样性为什么比数量更重要？

Accepted Answer

泛化来自任务覆盖面而非单任务样本堆量。若任务种类单一，模型只是过拟合到少数模式；当指令类型、措辞、领域足够多样时，模型才能抽象出「遵循指令」的通用能力，对未见指令也能作答。质量与去重同样关键。

Question 4

什么是 self-instruct / 合成指令数据？

Accepted Answer

用一个能力较强的 LLM 自动生成（指令, 回答）对来扩充指令微调数据，降低人工标注成本。需配合过滤、去重和质量校验，否则会引入噪声或放大教师模型的偏差。

核心要点