大语言模型3 天前·arXiv

Gated DeltaNet-2 论文:线性注意力机制解耦擦除和写入,序列处理效率新突破

arXiv 最新论文提出 Gated DeltaNet-2,通过解耦线性注意力中的擦除和写入操作,在保持固定大小循环状态的同时显著提升序列建模能力。

Gated DeltaNet-2:线性注意力的新架构

2026 年 5 月 21 日,arXiv 发布最新研究。

技术创新

  • 解耦设计:将线性注意力中的擦除(erase)和写入(write)操作分离,各自优化
  • 固定状态:替代 softmax 注意力的无限缓存,使用固定大小循环状态
  • 效率优势:在长序列任务中显著降低内存消耗,同时保持建模能力

研究意义

线性注意力机制是当前大模型降低推理成本的重要方向。Gated DeltaNet-2 的解耦设计为线性注意力提供了新的架构思路。

来源: arXiv
链接: https://arxiv.org/abs/2605.22803