核心要点
Adapter Tuning:在每个 Transformer 子层后插入一个「降维-非线性-升维」的瓶颈模块(down→activation→up),只训练这些 Adapter,原权重不动。
Prefix/Prompt Tuning:在输入或每一层注意力的 Key/Value 前拼接一段可训练的「虚拟 token」(前缀),通过优化这段连续向量来引导模型,不改任何原权重。
LoRA:对选定权重矩阵加一条低秩旁路 Wnew = W + BA(B∈R^{d×r}, A∈R^{r×k}, r<<d),只训 B、A;区别在于 Adapter 串联增加层数有推理延迟、Prefix 占用上下文长度且较难训、LoRA 可合并回权重做到零额外延迟。
标准回答
这三种都是 PEFT 方法,目标一致:冻结大模型主体,只训练很少的新增参数。区别在于「往哪儿加参数」。
Adapter Tuning 在每个 Transformer 子层(注意力后、FFN 后)插入一个小瓶颈模块:先把 d 维降到很小的 r 维,过一个非线性,再升回 d 维,并配残差连接。训练时只更新这些 Adapter(占总参数约 1% 以下)。优点是模块化、每个任务一套 Adapter;缺点是它是串联在主干里的,推理时多走了若干层小网络,会带来额外延迟,且无法合并回原权重。
Prefix Tuning / Prompt Tuning 不动任何原权重,而是在输入(Prompt Tuning,仅 embedding 层)或每一层注意力的 Key/Value 前面,拼接一段可训练的连续向量(虚拟 token,俗称软提示)。模型把这段前缀当成额外上下文来「被引导」。优点是新增参数极少、天然支持多任务(换一组前缀即可);缺点是这段前缀会占用上下文长度(挤占可用 token),且优化较不稳定、对学习率与长度敏感,小模型上效果常不如 LoRA。
LoRA 对选定权重(通常 Q/V 投影)加低秩旁路:Wnew = W + BA,只训练 B、A 两个小矩阵。它的关键优势是可合并——部署时把 BA 加回 W,推理结构与原模型完全一致,零额外延迟,也不占上下文。
一句话对比:Adapter 改结构、有延迟、不可合并;Prefix 改输入、占上下文、较难训;LoRA 改权重旁路、可合并、零延迟,因此 2026 年工程上 LoRA / QLoRA 是默认首选,Adapter 与 Prefix 多见于研究或特定多任务路由场景。
常见误区
⚠️ 常见踩坑
误区一:以为「PEFT 都不增加推理延迟」。只有 LoRA(合并后)和纯 Prompt Tuning 接近零延迟,Adapter 因串联模块会实打实增加每层计算。误区二:把 Prefix Tuning 当成「写提示词」——它优化的是连续向量而非自然语言,且会吃掉上下文窗口。误区三:认为三者效果一定不如全量微调;在多数下游任务上 LoRA 已能逼近全量,Adapter/Prefix 在小模型或少数据时才明显掉点。误区四:以为 Adapter 一定不能合并——标准串联 Adapter 不能,但部分并联变体可近似合并。
追问
追问 1:为什么 LoRA 能合并回权重而标准 Adapter 不能?
因为 LoRA 的旁路 BA 与原权重 W 作用在同一个线性变换上且是相加关系,Wnew = W + BA 仍是一个线性层,部署时直接把 BA 加进 W 即可,结构不变。标准 Adapter 是串联在子层之间的「降维-非线性-升维」模块,中间夹了非线性激活,无法折叠进相邻的线性权重,因此推理时必须实际执行这些额外层,带来延迟。
追问 2:Prefix Tuning 占用上下文长度具体有什么影响?怎么权衡前缀长度?
前缀(虚拟 token)会和真实输入一起进入注意力,若前缀长度为 L、模型上下文上限为 N,则真实可用 token 降到 N-L,长文档任务受影响明显。前缀越长容量越大、拟合越好,但占用越多、训练越不稳定。经验上从 10~20 个前缀 token 起步,按验证集效果与上下文预算上调,长上下文场景更倾向改用 LoRA 以免挤占窗口。
追问 3:如果一个底座要同时上线很多任务,Adapter、Prefix、LoRA 哪种更适合做多任务路由?
三者都支持「一套底座 + 多套小参数」的热插拔,存储成本都很低。LoRA 最常用:每任务一个 MB 级 adapter,推理时可按请求动态加载/合并,配合 vLLM 等还能做多 LoRA 批量服务。Adapter 同样模块化但有串联延迟,适合任务数少、对延迟不敏感的场景。Prefix 切换最轻(只换一段向量、底座完全不动),适合任务极多且每任务数据少的情形,但要预留上下文预算。综合 2026 工程实践,多任务在线服务普遍选 LoRA 路由。
🔗 相似问题
同一考点的不同问法,面试官可能换着问,一起刷更稳
没找到想看的面试题?把你想看的告诉我们 →
延伸学习
按主题分类的相关资源,便于系统复习