Model Compression(模型压缩)

就是把大模型瘦身,让它在手机或嵌入式芯片上也能跑起来,但尽量不让它变笨。

亦作、亦称:模型压缩 · Network Compression · 轻量化 · 模型瘦身

模型压缩通过剪枝、量化、知识蒸馏等技术,在损失极小精度的前提下大幅缩减深度学习模型的体积与计算量。它是将 AI 能力落地到边缘设备、降低推理成本的核心工程手段。

概述

模型压缩旨在解决大型神经网络部署时的存储、带宽和算力瓶颈。

  • 核心目标:在模型精度损失可接受的范围内,最大化压缩存储占用与推理延迟
  • 驱动场景:端侧设备(手机、IoT、车载 ECU)内存与算力远低于云端 GPU
  • 工业价值:每降低一倍模型体积,可节省约同比例的内存带宽与存储成本
  • 主要方法:剪枝、量化、知识蒸馏、低秩分解、轻量级架构,可单独或组合使用

工作原理

神经网络存在大量冗余——许多权重接近零或彼此高度相关,压缩技术正是利用这一特性。

  • 稀疏性利用:剪枝找到重要性低的权重并置零,配合稀疏存储格式减少实际占用
  • 精度降低:量化将 FP32 权重映射到 INT8/INT4 甚至 1-bit,计算量和内存均成比例下降
  • 知识迁移:蒸馏令小模型(Student)拟合大模型(Teacher)的 logits 或中间特征,获得超越直接训练的精度
  • 代数分解:低秩分解将权重矩阵 W 分解为两个低秩矩阵之积 UV,参数量从 mn 降至 m·r + r·n(r≪min(m,n))

主要类型与变体

不同技术在压缩率、精度损失和实现难度上各有取舍。

  • 结构化剪枝 vs 非结构化剪枝:结构化剪枝删除整个卷积核/神经元,硬件友好;非结构化剪枝精度更高但需稀疏加速库
  • 训练后量化(PTQ):无需重新训练,速度快但精度损失相对大;适合快速部署
  • 量化感知训练(QAT):在训练中模拟量化误差,精度接近 FP32,计算成本更高
  • 离线蒸馏 vs 在线蒸馏:离线蒸馏预先训好 Teacher;在线蒸馏 Teacher 与 Student 同步训练,适合持续学习
  • 低秩分解:常用于全连接层和注意力矩阵,SVD 是最常见的分解工具

应用场景

模型压缩已成为 AI 落地的必备工程环节。

  • 移动端推理:将 LLM 量化至 4-bit(如 GGUF/AWQ)后可在手机或笔记本 CPU 上运行
  • 嵌入式 / IoT:语音唤醒词、图像分类等任务通过剪枝压缩至 KB 级,运行在 MCU 上
  • 云端降本:FP8/INT8 量化在 GPU 上可降低约 2 倍显存占用,提升批处理吞吐
  • 自动驾驶:实时目标检测模型需在低功耗 SoC 上实现毫秒级推理,压缩是必要条件

局限与误区

模型压缩不是无损的,工程实践中需警惕以下问题。

  • 精度断崖:压缩率超过阈值后精度会骤降,需实验确定安全压缩率上限
  • 任务敏感差异:分类任务通常比生成任务更耐压缩;低频知识在压缩后更容易丢失
  • 硬件匹配问题:非结构化稀疏若无专用稀疏加速支持,实际推理速度提升有限
  • 误区:量化精度无损:INT8 量化一般精度损失极小,但 INT4 以下对激活值敏感的模型损失不可忽略
  • 压缩后需验证:务必在目标分布的测试集上重新评估,不能仅凭训练集指标判断

发展脉络

模型压缩随着深度学习模型规模的爆炸式增长而不断演进。

  • 1989 年:LeCun 等提出「Optimal Brain Damage」,首次用二阶导数指导权重剪枝
  • 2015 年:Han Song 等发表「Learning both Weights and Connections」,系统化剪枝流程
  • 2016 年:「Deep Compression」(ICLR Best Paper)将剪枝+量化+霍夫曼编码组合,AlexNet 压缩 35 倍
  • 2015-2017 年:Hinton 等人的知识蒸馏理论成熟;MobileNet/ShuffleNet 等轻量架构兴起
  • 2020 年后:LLM 量化(GPTQ、AWQ、bitsandbytes)成为主流;结构化剪枝用于 Transformer
  • 2023-2025 年:4-bit / 1-bit 量化(BitNet)、混合精度蒸馏在端侧 LLM 部署中大规模应用

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「就是把大模型瘦身,让它在手机或嵌入式芯片上也能跑起来,但尽量不让它变笨。」
  • 「量化就是把模型参数从 32 位浮点数变成 8 位甚至 4 位整数,压缩了精度但换来了更小的体积和更快的推理速度。」
  • 「剪枝不等于随机删参数——它要先找出对输出影响最小的连接,再有选择地裁掉,否则精度会崩。」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    模型压缩技术全景:量化、剪枝与蒸馏的理论与实践

    系统掌握模型压缩的三大核心方法——量化、剪枝和知识蒸馏,理解原理、对比方案、掌握实战技巧,让大模型在资源受限环境中高效运行

  2. 2

    AI 模型蒸馏技术:从原理到实战的完整知识体系

    知识蒸馏(Knowledge Distillation)是将大模型能力迁移到小模型的核心技术。本文系统讲解蒸馏的数学原理、三大蒸馏范式(响应蒸馏、特征蒸馏、关系蒸馏)、自蒸馏与多教师蒸馏、实战代码实现,以及 OpenAI、Google、DeepSeek 等公司的工业级蒸馏实践。

  3. 3

    端侧 AI 技术路线:从 NPU 到 Agent 的完整指南

    系统讲解端侧 AI(Edge AI)的完整技术体系——从为什么需要端侧 AI 出发,深入解析 NPU/APU/GPU 三大端侧 AI 处理器架构,对比联发科天玑、高通骁龙、苹果 A/M 系列芯片的 AI 能力差异,探讨端侧模型压缩技术(量化/剪枝/蒸馏/知识蒸馏),并展望端侧 Agent 时代的到来。本文是理解 AI 从云端走向设备端的技术必读。

外部参考

维基百科:查看「Model Compression」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。