参数高效微调（PEFT）有哪些主流方法？

Question 1

Accepted Answer

为什么需要 PEFT（独占一行） 全量微调要更新所有权重，显存与存储开销巨大，每个任务都要存一份完整模型，且小数据上易过拟合和灾难性遗忘。PEFT 冻结基座、只训练少量参数来缓解这些问题。 主流方法 - LoRA / QLoRA：在权重旁注入低秩矩阵 A/B，只训练它们；QLoRA 再叠加 4-bit 量化基座，单卡可微调大模型。当前最主流。 - Adapter：在 Transformer 层间插入小型瓶颈模块，只训练这些模块。 - Prefix-Tuning / P-Tuning：冻结模型，只学习一段可训练的「软提示」向量前缀。 - (IA)³：对注意力与 FFN 的激活做逐元素缩放，引入的参数比 LoRA 还少。 取舍 LoRA 系列效果接近全量、可把适配器合并回基座因而推理零额外开销，且一个基座可挂多套适配器服务不同任务，是工程首选；Prefix/P-Tuning 参数更省但调优更敏感。

Question 2

LoRA 的秩 r 怎么选？

Accepted Answer

r 控制可训练参数量与表达能力：任务简单或数据少用较小 r（8–16）防过拟合；任务复杂可增大 r。通常配合 alpha 缩放，实践中从 r=8/16 起调，再按验证效果增减。

Question 3

PEFT 和全量微调精度差距大吗？

Accepted Answer

在多数下游任务上 LoRA/QLoRA 已能逼近全量微调；差距主要出现在需要大幅改变模型行为或注入大量新知识的场景，此时全量微调或继续预训练更有优势。

Question 4

一个基座如何同时服务多个 LoRA 任务？

Accepted Answer

基座只加载一份，按请求动态切换/批处理不同 LoRA 适配器（如 vLLM 的多 LoRA 服务），既省显存又能快速上线新任务，无需为每个任务部署完整模型。

参数高效微调（PEFT）有哪些主流方法？

核心要点

标准回答

常见误区

追问

延伸学习