Gated DeltaNet-2:线性注意力的新架构
2026 年 5 月 21 日,arXiv 发布最新研究。
技术创新
- 解耦设计:将线性注意力中的擦除(erase)和写入(write)操作分离,各自优化
- 固定状态:替代 softmax 注意力的无限缓存,使用固定大小循环状态
- 效率优势:在长序列任务中显著降低内存消耗,同时保持建模能力
研究意义
线性注意力机制是当前大模型降低推理成本的重要方向。Gated DeltaNet-2 的解耦设计为线性注意力提供了新的架构思路。
来源: arXiv
链接: https://arxiv.org/abs/2605.22803