Model Compression（模型压缩）

就是把大模型瘦身，让它在手机或嵌入式芯片上也能跑起来，但尽量不让它变笨。

亦作、亦称：模型压缩 · Network Compression · 轻量化 · 模型瘦身

模型压缩通过剪枝、量化、知识蒸馏等技术，在损失极小精度的前提下大幅缩减深度学习模型的体积与计算量。它是将 AI 能力落地到边缘设备、降低推理成本的核心工程手段。

概述

模型压缩旨在解决大型神经网络部署时的存储、带宽和算力瓶颈。

核心目标：在模型精度损失可接受的范围内，最大化压缩存储占用与推理延迟
驱动场景：端侧设备（手机、IoT、车载 ECU）内存与算力远低于云端 GPU
工业价值：每降低一倍模型体积，可节省约同比例的内存带宽与存储成本
主要方法：剪枝、量化、知识蒸馏、低秩分解、轻量级架构，可单独或组合使用

工作原理

神经网络存在大量冗余——许多权重接近零或彼此高度相关，压缩技术正是利用这一特性。

稀疏性利用：剪枝找到重要性低的权重并置零，配合稀疏存储格式减少实际占用
精度降低：量化将 FP32 权重映射到 INT8/INT4 甚至 1-bit，计算量和内存均成比例下降
知识迁移：蒸馏令小模型（Student）拟合大模型（Teacher）的 logits 或中间特征，获得超越直接训练的精度
代数分解：低秩分解将权重矩阵 W 分解为两个低秩矩阵之积 UV，参数量从 mn 降至 m·r + r·n（r≪min(m,n)）

主要类型与变体

不同技术在压缩率、精度损失和实现难度上各有取舍。

结构化剪枝 vs 非结构化剪枝：结构化剪枝删除整个卷积核/神经元，硬件友好；非结构化剪枝精度更高但需稀疏加速库
训练后量化（PTQ）：无需重新训练，速度快但精度损失相对大；适合快速部署
量化感知训练（QAT）：在训练中模拟量化误差，精度接近 FP32，计算成本更高
离线蒸馏 vs 在线蒸馏：离线蒸馏预先训好 Teacher；在线蒸馏 Teacher 与 Student 同步训练，适合持续学习
低秩分解：常用于全连接层和注意力矩阵，SVD 是最常见的分解工具

应用场景

模型压缩已成为 AI 落地的必备工程环节。

移动端推理：将 LLM 量化至 4-bit（如 GGUF/AWQ）后可在手机或笔记本 CPU 上运行
嵌入式 / IoT：语音唤醒词、图像分类等任务通过剪枝压缩至 KB 级，运行在 MCU 上
云端降本：FP8/INT8 量化在 GPU 上可降低约 2 倍显存占用，提升批处理吞吐
自动驾驶：实时目标检测模型需在低功耗 SoC 上实现毫秒级推理，压缩是必要条件

局限与误区

模型压缩不是无损的，工程实践中需警惕以下问题。

精度断崖：压缩率超过阈值后精度会骤降，需实验确定安全压缩率上限
任务敏感差异：分类任务通常比生成任务更耐压缩；低频知识在压缩后更容易丢失
硬件匹配问题：非结构化稀疏若无专用稀疏加速支持，实际推理速度提升有限
误区：量化精度无损：INT8 量化一般精度损失极小，但 INT4 以下对激活值敏感的模型损失不可忽略
压缩后需验证：务必在目标分布的测试集上重新评估，不能仅凭训练集指标判断

发展脉络

模型压缩随着深度学习模型规模的爆炸式增长而不断演进。

1989 年：LeCun 等提出「Optimal Brain Damage」，首次用二阶导数指导权重剪枝
2015 年：Han Song 等发表「Learning both Weights and Connections」，系统化剪枝流程
2016 年：「Deep Compression」（ICLR Best Paper）将剪枝+量化+霍夫曼编码组合，AlexNet 压缩 35 倍
2015-2017 年：Hinton 等人的知识蒸馏理论成熟；MobileNet/ShuffleNet 等轻量架构兴起
2020 年后：LLM 量化（GPTQ、AWQ、bitsandbytes）成为主流；结构化剪枝用于 Transformer
2023-2025 年：4-bit / 1-bit 量化（BitNet）、混合精度蒸馏在端侧 LLM 部署中大规模应用

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是把大模型瘦身，让它在手机或嵌入式芯片上也能跑起来，但尽量不让它变笨。」
「量化就是把模型参数从 32 位浮点数变成 8 位甚至 4 位整数，压缩了精度但换来了更小的体积和更快的推理速度。」
「剪枝不等于随机删参数——它要先找出对输出影响最小的连接，再有选择地裁掉，否则精度会崩。」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Model Compression」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

Model Compression（模型压缩）

概述

工作原理

主要类型与变体

应用场景

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

模型压缩技术全景：量化、剪枝与蒸馏的理论与实践

AI 模型蒸馏技术：从原理到实战的完整知识体系

端侧 AI 技术路线：从 NPU 到 Agent 的完整指南

外部参考

概述

工作原理

主要类型与变体

应用场景

与相邻概念的区别

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

模型压缩技术全景：量化、剪枝与蒸馏的理论与实践

AI 模型蒸馏技术：从原理到实战的完整知识体系

端侧 AI 技术路线：从 NPU 到 Agent 的完整指南

外部参考