Linear Attention（线性注意力）

线性注意力就是把标准 Transformer 里那个『每个词都要跟所有词算一遍相似度』的 N 平方开销，改成只跑一遍序列就行的线性复杂度

亦作、亦称：线性注意力

线性注意力通过核函数将 Softmax 注意力的平方复杂度降为线性，是高效 Transformer 与新一代线性序列模型的核心基础技术。它让超长上下文推理在受限硬件上成为可能，并催生了 RWKV、RetNet、GLA 等一系列前沿架构。

概述

线性注意力旨在解决标准 Softmax 注意力 O(N²) 复杂度带来的长序列瓶颈。

核心思想：用核函数 φ(·) 将 softmax(QKᵀ) 近似为 φ(Q)φ(K)ᵀ，利用结合律先算 φ(K)ᵀV，将复杂度降为线性
等价 RNN：在因果（自回归）设置下，线性注意力可改写为隐状态 Sₜ = Sₜ₋₁ + φ(kₜ)vₜᵀ 的递推形式，推理时内存为常数
实际加速：Katharopoulos 等人报告在长序列自回归任务上推理速度可提升最高 4000 倍
核函数选择：常用 elu(x)+1、随机特征（Random Features）、Taylor 展开等近似 softmax

工作原理

线性注意力的数学推导分两步完成，关键在于改变运算顺序。

标准注意力：Attn(Q,K,V) = softmax(QKᵀ/√d)V，复杂度 O(N²d)
核分解：将 sim(qᵢ, kⱼ) = φ(qᵢ)·φ(kⱼ) 代入，得 oᵢ = Σⱼ φ(qᵢ)·φ(kⱼ)·vⱼ / Σⱼ φ(qᵢ)·φ(kⱼ)
结合律优化：先计算 上下文矩阵 C = Σⱼ φ(kⱼ)vⱼᵀ（O(Nd²)），再用 oᵢ = φ(qᵢ)C / φ(qᵢ)z，总复杂度降至 O(Nd²)
因果掩码：引入前缀和（prefix sum）Sₜ = Σⱼ≤ₜ φ(kⱼ)vⱼᵀ，实现自回归的逐步递推计算

主要变体

2020 年后涌现出大量改进线性注意力的架构，逐步弥补其性能短板。

Performer（2020）：Google 提出，使用正随机特征（FAVOR+）近似 softmax 核，兼顾无偏估计与低方差
RetNet（2023）：微软提出，引入指数衰减的保留（retention）机制，等价于带位置衰减的线性注意力，支持并行/递推/分块三种计算模式
GLA（门控线性注意力，2023）：Yang 等人提出，将标量遗忘因子替换为数据依赖的矩阵门控，性能可与 LLaMA 架构媲美
RWKV（2023）：彭博等人提出，将线性注意力与 RNN 思想结合，已发展至 RWKV-7（Goose），支持数十亿参数级别训练

应用场景

线性注意力在对吞吐量、延迟和显存敏感的场景中具有独特优势。

长文档理解：序列长度达数万乃至百万 token 时，线性复杂度使单卡推理成为可能
流式推理与边缘部署：递推形式可逐 token 生成，显存占用恒定，适合资源受限设备
视频与时序建模：在 CV 领域替代 ViT 中的注意力层，处理高分辨率图像块序列
实时语音与信号处理：低延迟的逐步递推计算契合在线流式场景
超长上下文 LLM 预训练：与滑动窗口注意力、稀疏注意力混合使用，兼顾效率与全局建模

与 Softmax 注意力的区别

理解线性注意力与标准注意力的差异，有助于在实际任务中做出合适的架构选择。

复杂度：标准注意力 O(N²d)；线性注意力 O(Nd²)，序列长时优势显著，但 d 较大时反而可能更慢
表达能力：Softmax 产生稀疏的尖锐注意力分布，擅长精确局部检索；线性注意力的核近似往往产生更平滑的分布，局部检索能力较弱
遗忘问题：线性 RNN 的固定大小隐状态会随序列增长逐渐稀释早期信息，门控机制（如 GLA）可部分缓解
训练并行度：标准注意力天然并行；线性注意力在非因果场景下也可并行，因果场景需前缀和或分块并行

局限与误区

线性注意力并非万能替代方案，以下几点常被误解。

误区：效果一定差——在长序列任务上，适当门控的线性注意力（如 GLA）已可与 LLaMA 架构接近
误区：训练也是 O(N)——因果线性注意力训练时若用分块并行仍需 O(N) 但常数项大，朴素递推无法并行化
核函数敏感：不同核函数近似质量差异大，elu+1 在某些分布下方差高，FAVOR+ 等更稳定但实现复杂
短序列劣势：序列较短时 O(Nd²) 反而慢于标准注意力，工程上需动态切换
局部检索瓶颈：精确 key-value 检索任务（如多跳推理）中性能仍明显落后于 Softmax 注意力

发展脉络

线性注意力从早期理论探索到工业级大模型落地，经历了快速演进。

2020 年：Katharopoulos 等人提出线性 Transformer，首次系统证明因果注意力与线性 RNN 等价（ICML 2020）
2020 年：Choromanski 等人提出 Performer，用随机正交特征（FAVOR+）实现无偏核近似（ICLR 2021）
2021 年：Peng 等人提出 RWKV 前身，探索 RNN 与注意力的融合路径
2023 年：RetNet（微软）、GLA（Yang 等）相继发布，门控机制成为主流，性能大幅提升
2023—2024 年：RWKV-5/6/7、Mamba、Hawk、Griffin 等架构相互竞争，线性序列模型逐步走向规模化
2024—2026 年：混合架构（线性注意力 + 少量 Softmax 注意力层）成为 LLM 工业实践主流选择

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「线性注意力就是把标准 Transformer 里那个『每个词都要跟所有词算一遍相似度』的 N 平方开销，改成只跑一遍序列就行的线性复杂度」
「很多人以为线性注意力只是近似，效果一定差很多——其实在长序列推理场景下，它能做到速度快几千倍，同时性能损失很小」
「线性注意力和 RNN 本质上是同一个东西：因果掩码下的线性注意力可以直接写成隐状态递推的形式」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Linear Attention」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。