Adapter Tuning 和 Prefix Tuning 是什么？和 LoRA 有什么区别？

Question 1

Accepted Answer

这三种都是 PEFT 方法，目标一致：冻结大模型主体，只训练很少的新增参数。区别在于「往哪儿加参数」。 Adapter Tuning 在每个 Transformer 子层（注意力后、FFN 后）插入一个小瓶颈模块：先把 d 维降到很小的 r 维，过一个非线性，再升回 d 维，并配残差连接。训练时只更新这些 Adapter（占总参数约 1% 以下）。优点是模块化、每个任务一套 Adapter；缺点是它是串联在主干里的，推理时多走了若干层小网络，会带来额外延迟，且无法合并回原权重。 Prefix Tuning / Prompt Tuning 不动任何原权重，而是在输入（Prompt Tuning，仅 embedding 层）或每一层注意力的 Key/Value 前面，拼接一段可训练的连续向量（虚拟 token，俗称软提示）。模型把这段前缀当成额外上下文来「被引导」。优点是新增参数极少、天然支持多任务（换一组前缀即可）；缺点是这段前缀会占用上下文长度（挤占可用 token），且优化较不稳定、对学习率与长度敏感，小模型上效果常不如 LoRA。 LoRA 对选定权重（通常 Q/V 投影）加低秩旁路：Wnew = W + BA，只训练 B、A 两个小矩阵。它的关键优势是可合并——部署时把 BA 加回 W，推理结构与原模型完全一致，零额外延迟，也不占上下文。 一句话对比：Adapter 改结构、有延迟、不可合并；Prefix 改输入、占上下文、较难训；LoRA 改权重旁路、可合并、零延迟，因此 2026 年工程上 LoRA / QLoRA 是默认首选，Adapter 与 Prefix 多见于研究或特定多任务路由场景。

Question 2

为什么 LoRA 能合并回权重而标准 Adapter 不能？

Accepted Answer

因为 LoRA 的旁路 BA 与原权重 W 作用在同一个线性变换上且是相加关系，Wnew = W + BA 仍是一个线性层，部署时直接把 BA 加进 W 即可，结构不变。标准 Adapter 是串联在子层之间的「降维-非线性-升维」模块，中间夹了非线性激活，无法折叠进相邻的线性权重，因此推理时必须实际执行这些额外层，带来延迟。

Question 3

Prefix Tuning 占用上下文长度具体有什么影响？怎么权衡前缀长度？

Accepted Answer

前缀（虚拟 token）会和真实输入一起进入注意力，若前缀长度为 L、模型上下文上限为 N，则真实可用 token 降到 N-L，长文档任务受影响明显。前缀越长容量越大、拟合越好，但占用越多、训练越不稳定。经验上从 10~20 个前缀 token 起步，按验证集效果与上下文预算上调，长上下文场景更倾向改用 LoRA 以免挤占窗口。

Question 4

如果一个底座要同时上线很多任务，Adapter、Prefix、LoRA 哪种更适合做多任务路由？

Accepted Answer

三者都支持「一套底座 + 多套小参数」的热插拔，存储成本都很低。LoRA 最常用：每任务一个 MB 级 adapter，推理时可按请求动态加载/合并，配合 vLLM 等还能做多 LoRA 批量服务。Adapter 同样模块化但有串联延迟，适合任务数少、对延迟不敏感的场景。Prefix 切换最轻（只换一段向量、底座完全不动），适合任务极多且每任务数据少的情形，但要预留上下文预算。综合 2026 工程实践，多任务在线服务普遍选 LoRA 路由。

Adapter Tuning 和 Prefix Tuning 是什么？和 LoRA 有什么区别？

核心要点

标准回答

常见误区

追问

🔗 相似问题

延伸学习

核心术语

AI 工具