PEFT（参数高效微调）

只改一点点参数

亦作、亦称：参数高效微调

参数高效微调（PEFT，Parameter-Efficient Fine-Tuning）是一类让大型预训练模型以极少量可训练参数适配下游任务的技术总称，核心思路是「冻结主体权重，只更新关键部分」。相比全量微调，PEFT 通常只训练不到 1% 的参数，即可在垂直场景中达到接近全量微调的效果，将百亿级模型的适配成本降低到普通团队可承担的范围。

概述

概述与动机

全量微调（Full Fine-Tuning）对百亿参数模型的显存需求可达数百 GB，大多数团队难以负担，PEFT 正是为此而生。

核心洞察：下游任务所需的「知识增量」往往集中于低维子空间，不必更新全部权重
参数效率：主流 PEFT 方法可训练参数通常低于总量的 1%，部分方法（如 Prefix Tuning）仅需 0.1% 以下
效果接近：在大多数领域适配任务中，PEFT 与全量微调的效果差距在可接受范围内
工程友好：Hugging Face peft 开源库统一封装了主流方法，成为开源 LLM 微调的事实标准入口

主流方法分类

PEFT 方法按结构原理可分为三大路线，各有取舍。

低秩分解（LoRA 系列）：在原始权重旁并联低秩矩阵 ΔW = B·A，训练后可合并回原权重，推理无额外延迟；QLoRA 进一步引入 4-bit 量化，可在消费级 GPU 上微调 70B 级模型
插入适配器（Adapter）：在 Transformer 各层之间串联小型可训练瓶颈网络，原始权重冻结；推理时有轻微额外开销，由 Houlsby 等人于 ICML 2019 首先提出
软提示（Prefix / Prompt Tuning）：在输入序列前拼接可训练的连续向量，完全不修改模型权重；参数量极少但适配能力相对有限，适合生成型任务
LoRA 改进变体：AdaLoRA 动态分配各层秩、DoRA 将权重分解为幅度与方向分别优化、LoRA+ 对 A/B 矩阵使用不同学习率

LoRA 核心机制

LoRA 是当前最广泛使用的 PEFT 方法，理解其数学思路有助于选型与调优。

核心假设：模型适配新任务时，权重变化量 ΔW 具有低内禀秩（low intrinsic rank），可用两个小矩阵之积近似
实现方式：冻结原始权重 W₀，旁路添加可训练矩阵 A（r×k）和 B（d×r），秩 r 远小于 d 和 k（常用 4—64）
参数压缩：当 r=8、d=k=4096 时，可训练参数从约 1680 万压缩至约 6.5 万，压缩比约 256 倍
推理合并：训练完成后 ΔW = B·A 可直接加回 W₀，推理阶段结构与原模型完全相同，零额外延迟
QLoRA 扩展：将基础模型量化为 4-bit NF4 格式，LoRA 适配器仍用 bf16，可在 24GB 显存内微调 33B 模型

发展脉络

PEFT 的演进与大语言模型规模扩张高度相关。

2019：Houlsby 等在 ICML 发表「Parameter-Efficient Transfer Learning for NLP」，提出 Adapter Tuning，是 PEFT 范式的早期里程碑
2021：Prefix Tuning（Li & Liang，Stanford/UCB，ACL 2021）将可学习连续向量引入生成模型；同年 LoRA 论文预印本发布
2022：LoRA（Hu 等，微软研究院）在 ICLR 2022 正式发表，成为社区最受欢迎的 PEFT 方法；Hugging Face 发布 peft 库，工程门槛大幅降低
2023：QLoRA（Dettmers 等）发表，4-bit 量化加 LoRA 让消费级 GPU 微调 65B 模型成为现实，点燃开源 LLM 微调热潮
2024 至今：DoRA、LoRA+、LoftQ、GaLore 等改进方法持续涌现，PEFT 扩展至视觉和多模态领域

典型应用场景

PEFT 已在多个方向形成成熟的工程实践。

LLM 垂直适配：将 LLaMA、Qwen、DeepSeek 等基座模型用 LoRA 适配到医疗问答、法律文书、代码补全等场景，是当前最主流的开源 LLM 微调范式
多适配器服务：同一基座加载不同轻量适配器即可服务多条业务线，存储开销远低于为每条线部署独立模型
图像生成个性化：Stable Diffusion 社区大量使用 LoRA 实现特定风格或角色定制，适配器可自由叠加组合
多模态模型适配：对视觉语言模型（VLM）的文本解码器或跨模态投影层施加 LoRA，低成本完成视觉指令对齐
SFT 标配组合：「用 LoRA 做 SFT」已成为开源社区指令微调的默认起点

与相邻概念的区别

PEFT 常与以下概念混淆，需要明确区分。

PEFT vs 全量微调：全量微调适配能力最强但成本极高；PEFT 成本低一到两个数量级，多数场景效果可以逼近
PEFT vs SFT：两者不对立——SFT 描述训练数据形式（人工标注输入输出对），PEFT 描述参数更新方式，「用 LoRA 做 SFT」是最常见组合
PEFT vs Prompt Engineering：提示词工程完全不修改模型参数，零成本但上限较低；PEFT 需要带标注数据和训练资源，适配深度更彻底
PEFT vs 量化：量化目标是压缩推理时显存与速度，PEFT 目标是降低训练时参数规模；两者互补，QLoRA 将二者结合

局限与误区

使用 PEFT 时有几个常见认知误区值得注意。

误区：参数少等于不需要 GPU：即便使用 QLoRA，微调 7B 以上模型仍需独立 GPU；QLoRA 是降低了显存门槛，而非消除 GPU 需求
误区：LoRA 总比全量微调差：多数领域适配任务中效果差距可接受；但当任务分布与预训练差异极大时，低秩近似有明确表达能力上限
秩的选择影响显著：秩 r 过小可能欠拟合，过大则失去参数高效的优势；通常从 r=8 或 r=16 开始消融实验
方法不可随意互换：Adapter 对 Transformer 结构有侵入性；Prefix Tuning 在生成任务表现好但在分类任务效果不稳定，实际选型需结合任务类型实验验证

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「只改一点点参数」
「大模型圈高频词」
「跟 PEFT 是一回事吗」

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「PEFT」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。