Linear Attention(线性注意力)

线性注意力就是把标准 Transformer 里那个『每个词都要跟所有词算一遍相似度』的 N 平方开销,改成只跑一遍序列就行的线性复杂度

亦作、亦称:线性注意力

线性注意力通过核函数将 Softmax 注意力的平方复杂度降为线性,是高效 Transformer 与新一代线性序列模型的核心基础技术。它让超长上下文推理在受限硬件上成为可能,并催生了 RWKV、RetNet、GLA 等一系列前沿架构。

概述

线性注意力旨在解决标准 Softmax 注意力 O(N²) 复杂度带来的长序列瓶颈。

  • 核心思想:用核函数 φ(·) 将 softmax(QKᵀ) 近似为 φ(Q)φ(K)ᵀ,利用结合律先算 φ(K)ᵀV,将复杂度降为线性
  • 等价 RNN:在因果(自回归)设置下,线性注意力可改写为隐状态 Sₜ = Sₜ₋₁ + φ(kₜ)vₜᵀ 的递推形式,推理时内存为常数
  • 实际加速:Katharopoulos 等人报告在长序列自回归任务上推理速度可提升最高 4000 倍
  • 核函数选择:常用 elu(x)+1、随机特征(Random Features)、Taylor 展开等近似 softmax

工作原理

线性注意力的数学推导分两步完成,关键在于改变运算顺序。

  • 标准注意力:Attn(Q,K,V) = softmax(QKᵀ/√d)V,复杂度 O(N²d)
  • 核分解:将 sim(qᵢ, kⱼ) = φ(qᵢ)·φ(kⱼ) 代入,得 oᵢ = Σⱼ φ(qᵢ)·φ(kⱼ)·vⱼ / Σⱼ φ(qᵢ)·φ(kⱼ)
  • 结合律优化:先计算 上下文矩阵 C = Σⱼ φ(kⱼ)vⱼᵀ(O(Nd²)),再用 oᵢ = φ(qᵢ)C / φ(qᵢ)z,总复杂度降至 O(Nd²)
  • 因果掩码:引入前缀和(prefix sum)Sₜ = Σⱼ≤ₜ φ(kⱼ)vⱼᵀ,实现自回归的逐步递推计算

主要变体

2020 年后涌现出大量改进线性注意力的架构,逐步弥补其性能短板。

  • Performer(2020):Google 提出,使用正随机特征(FAVOR+)近似 softmax 核,兼顾无偏估计与低方差
  • RetNet(2023):微软提出,引入指数衰减的保留(retention)机制,等价于带位置衰减的线性注意力,支持并行/递推/分块三种计算模式
  • GLA(门控线性注意力,2023):Yang 等人提出,将标量遗忘因子替换为数据依赖的矩阵门控,性能可与 LLaMA 架构媲美
  • RWKV(2023):彭博等人提出,将线性注意力与 RNN 思想结合,已发展至 RWKV-7(Goose),支持数十亿参数级别训练

应用场景

线性注意力在对吞吐量、延迟和显存敏感的场景中具有独特优势。

  • 长文档理解:序列长度达数万乃至百万 token 时,线性复杂度使单卡推理成为可能
  • 流式推理与边缘部署:递推形式可逐 token 生成,显存占用恒定,适合资源受限设备
  • 视频与时序建模:在 CV 领域替代 ViT 中的注意力层,处理高分辨率图像块序列
  • 实时语音与信号处理:低延迟的逐步递推计算契合在线流式场景
  • 超长上下文 LLM 预训练:与滑动窗口注意力、稀疏注意力混合使用,兼顾效率与全局建模

与 Softmax 注意力的区别

理解线性注意力与标准注意力的差异,有助于在实际任务中做出合适的架构选择。

  • 复杂度:标准注意力 O(N²d);线性注意力 O(Nd²),序列长时优势显著,但 d 较大时反而可能更慢
  • 表达能力:Softmax 产生稀疏的尖锐注意力分布,擅长精确局部检索;线性注意力的核近似往往产生更平滑的分布,局部检索能力较弱
  • 遗忘问题:线性 RNN 的固定大小隐状态会随序列增长逐渐稀释早期信息,门控机制(如 GLA)可部分缓解
  • 训练并行度:标准注意力天然并行;线性注意力在非因果场景下也可并行,因果场景需前缀和或分块并行

局限与误区

线性注意力并非万能替代方案,以下几点常被误解。

  • 误区:效果一定差——在长序列任务上,适当门控的线性注意力(如 GLA)已可与 LLaMA 架构接近
  • 误区:训练也是 O(N)——因果线性注意力训练时若用分块并行仍需 O(N) 但常数项大,朴素递推无法并行化
  • 核函数敏感:不同核函数近似质量差异大,elu+1 在某些分布下方差高,FAVOR+ 等更稳定但实现复杂
  • 短序列劣势:序列较短时 O(Nd²) 反而慢于标准注意力,工程上需动态切换
  • 局部检索瓶颈:精确 key-value 检索任务(如多跳推理)中性能仍明显落后于 Softmax 注意力

发展脉络

线性注意力从早期理论探索到工业级大模型落地,经历了快速演进。

  • 2020 年:Katharopoulos 等人提出线性 Transformer,首次系统证明因果注意力与线性 RNN 等价(ICML 2020)
  • 2020 年:Choromanski 等人提出 Performer,用随机正交特征(FAVOR+)实现无偏核近似(ICLR 2021)
  • 2021 年:Peng 等人提出 RWKV 前身,探索 RNN 与注意力的融合路径
  • 2023 年:RetNet(微软)、GLA(Yang 等)相继发布,门控机制成为主流,性能大幅提升
  • 2023—2024 年:RWKV-5/6/7、Mamba、Hawk、Griffin 等架构相互竞争,线性序列模型逐步走向规模化
  • 2024—2026 年:混合架构(线性注意力 + 少量 Softmax 注意力层)成为 LLM 工业实践主流选择

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「线性注意力就是把标准 Transformer 里那个『每个词都要跟所有词算一遍相似度』的 N 平方开销,改成只跑一遍序列就行的线性复杂度」
  • 「很多人以为线性注意力只是近似,效果一定差很多——其实在长序列推理场景下,它能做到速度快几千倍,同时性能损失很小」
  • 「线性注意力和 RNN 本质上是同一个东西:因果掩码下的线性注意力可以直接写成隐状态递推的形式」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    线性注意力架构演进:从 Transformer 瓶颈到高效推理

    深入分析线性注意力架构如何突破标准 Transformer 的 O(n²) 瓶颈,涵盖 RWKV、Mamba、RetNet、DeltaNet、Gated DeltaNet-2 等代表性架构的原理与对比

  2. 2

    注意力机制:从 Seq2Seq 到 Transformer 的革命

    深入解析注意力机制的演进路线——从早期 Seq2Seq 的固定上下文瓶颈,到 Bahdanau 注意力、Luong 注意力的突破,再到自注意力机制与 Transformer 架构的诞生。理解注意力如何彻底改变了自然语言处理和计算机视觉。

  3. 3

    LLM 上下文窗口扩展:RoPE、ALiBi 与长文本建模技术

    大语言模型的上下文窗口大小决定了它能处理多长的输入和生成多长的输出。本文系统讲解上下文窗口扩展的核心技术——旋转位置编码 RoPE、注意力线性偏置 ALiBi、NTK 插值、YaRN 外推等方案,从原理到实战,帮助读者深入理解如何让模型突破训练时的长度限制,实现长文本的可靠建模。

外部参考

维基百科:查看「Linear Attention」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。