知识蒸馏（Knowledge Distillation）

大模型教小模型

亦作、亦称：Knowledge Distillation

知识蒸馏是一种将大型「教师模型」的预测知识迁移到更小「学生模型」的训练技术，让学生在参数量大幅缩减的同时尽可能保留教师的预测能力。其核心洞见在于：教师模型输出的软化概率分布（如「猫 0.7、豹 0.2、狗 0.1」）比单热标签携带更丰富的类间相似性信息，是压低部署成本的重要工程手段。

概述

核心机制

蒸馏训练的本质是用教师的软标签（soft targets）替代或补充真实的硬标签（hard labels）。

温度参数 T：在 Softmax 中引入温度 T，T 越大分布越平滑，类间相似信息越突出；T=1 时退化为标准 Softmax。
软标签：教师经高温 Softmax 后输出的概率向量，保留负标签之间的相对权重（如「猫」与「豹」比「猫」与「汽车」更接近）。
联合损失函数：学生损失 = α × 软标签蒸馏损失（KL 散度，使用高温 T）+ (1-α) × 硬标签交叉熵损失（T=1）。
推理阶段：蒸馏只影响训练过程，推理时学生独立运行，无需教师参与，延迟不受影响。

发展脉络

知识蒸馏经历了从工程实践到理论系统化，再到 LLM 时代核心方法的演变。

2006：Buciluă、Caruana、Niculescu-Mizil 在 KDD 2006 提出「模型压缩」，用神经网络模拟大型集成模型输出，是蒸馏思想最早的系统性实践。
2015：Hinton、Vinyals、Dean（Google）正式提出知识蒸馏，引入温度参数与软标签概念，发表于 NeurIPS 深度学习研讨会（arXiv:1503.02531）。
2019：Sanh 等人（Hugging Face）发布 DistilBERT，将 BERT 蒸馏为参数减少 40%、推理提速约 60% 的学生模型，保留 97% 的 GLUE 性能。
2022：Stanford Alpaca 用 GPT-3.5 生成 52K 指令数据微调 LLaMA-7B，将「数据蒸馏」推广至开源社区。
2023–2024：Phi 系列（Microsoft）、Qwen 系列（阿里巴巴）大量融入合成蒸馏语料，小参数模型在多项基准上逼近早期大模型，蒸馏成为 SLM 崛起的关键推手。

蒸馏分类

依据蒸馏信号来源与训练方式，知识蒸馏可分为以下几类。

基于响应的蒸馏（Response-Based）：学生仅对齐教师的最终 logits 或软标签，是最经典的 Hinton 原始方案，工程最简洁。
基于特征的蒸馏（Feature-Based）：学生同时学习教师中间层的特征表示，信息更丰富，但需对齐层间维度，代表工作如 FitNets（2014）。
基于关系的蒸馏（Relation-Based）：学生学习教师在样本对或层对之间的关系结构，而非直接复制激活值。
在线蒸馏：教师与学生同步训练、互相提供软标签，无需预先训练好的大模型。
数据蒸馏：用教师生成合成数据后对学生做 SFT，绕开直接对齐 logits 的工程难度；Alpaca、Phi 系列均属此类。

代表性应用

蒸馏在 NLP、视觉、语音领域均有标志性成果。

DistilBERT（2019，Hugging Face）：BERT 蒸馏版本，参数减少 40%，推理速度提升约 60%，保留 97% 的 GLUE 性能，是 NLP 蒸馏的里程碑。
TinyBERT（2019，华为诺亚方舟实验室）：同时蒸馏注意力矩阵、隐藏层与预测层，是多层特征蒸馏的代表工作。
LLM 指令蒸馏：以 GPT-4 等强模型的回答为软标签，微调开源小模型（如 Alpaca、Vicuna），显著提升指令跟随能力。
边缘视觉：将大型目标检测模型蒸馏为轻量版本，部署于嵌入式摄像头或无人机等资源受限设备。
实时语音：语音识别（ASR）与 TTS 系统通过蒸馏满足低延迟要求。

局限与风险

蒸馏并非无损压缩，有几个需关注的问题。

教师质量上限：学生性能受教师限制，教师的偏见、错误与幻觉会通过软标签直接传递给学生，蒸馏数据质量决定学生能力上限。
容量鸿沟（Capacity Gap）：教师与学生差距过大时，学生难以拟合教师的复杂分布，可引入「中间辅助教师」逐级压缩缓解。
分布外泛化：学生在训练任务上可接近教师，但在未见过的分布外数据上差距往往被低估。
合规风险：用 GPT-4 等闭源模型的输出训练开源模型，可能违反服务条款（OpenAI ToS 明确禁止此类用途），存在法律争议。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「大模型教小模型」
「大模型圈高频词」
「跟知识蒸馏是一回事吗」

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「知识蒸馏」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

知识蒸馏（Knowledge Distillation）

概述

核心机制

发展脉络

蒸馏分类

代表性应用

局限与风险

常见误解

相关术语

延伸阅读

AI 模型蒸馏技术：从原理到实战的完整知识体系

LLM 微调技术全景：LoRA、QLoRA、DPO 与参数高效微调实战

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕

概述

核心机制

发展脉络

蒸馏分类

代表性应用

与相关概念的区别

局限与风险

常见误解

相关术语

延伸阅读

AI 模型蒸馏技术：从原理到实战的完整知识体系

LLM 微调技术全景：LoRA、QLoRA、DPO 与参数高效微调实战

外部参考