Grouped Query Attention(分组查询注意力)
多头注意力的优化版
亦作、亦称:分组查询注意力 · GQA
GQA 让多个 Query Head 共享一组 Key/Value Head,在 LLaMA 2/3、Qwen 等模型中广泛采用,显著降低推理显存与带宽压力。
概述
将多个 Query Head 共享同一组 Key/Value Head,在保持模型质量的同时显著降低推理显存占用和 KV Cache 大小。 GQA 让多个 Query Head 共享一组 Key/Value Head,在 LLaMA 2/3、Qwen 等模型中广泛采用,显著降低推理显存与带宽压力。
工作原理
将多个 Query Head 共享同一组 Key/Value Head,在保持模型质量的同时显著降低推理显存占用和 KV Cache 大小。 GQA 让多个 Query Head 共享一组 Key/Value Head,在 LLaMA 2/3、Qwen 等模型中广泛采用,显著降低推理显存与带宽压力。
应用场景
Grouped Query Attention常见于:计算机视觉、语音识别、推荐系统与科学计算。实际选型需结合业务指标、数据规模与部署约束评估适用性。
局限与误区
围绕 Grouped Query Attention 的口语化说法(见「常见误解」)常过度简化。效果依赖数据质量、任务匹配与系统整体设计;生产环境应配合评测、监控与人工复核。
背景与发展
Grouped Query Attention随 AI 研究与工程实践持续演进,定义边界与最佳实践仍在更新。建议结合原始论文、官方文档与本站延伸阅读建立准确认知。
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「多头注意力的优化版」
- 「多个 Q 共享 KV」
- 「省 KV Cache 的招」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。
- 1
注意力机制与 Transformer 架构
详解 Self-Attention、Multi-Head Attention 和 Transformer 的编码器-解码器结构
- 2
LLM 推理优化:量化、剪枝、蒸馏与推理加速实战
系统讲解大语言模型推理优化的四大核心技术——量化(Quantization)、剪枝(Pruning)、知识蒸馏(Knowledge Distillation)和推理引擎加速,覆盖从原理到实战的完整链路
- 3
LLM 上下文窗口扩展:RoPE、ALiBi 与长文本建模技术
大语言模型的上下文窗口大小决定了它能处理多长的输入和生成多长的输出。本文系统讲解上下文窗口扩展的核心技术——旋转位置编码 RoPE、注意力线性偏置 ALiBi、NTK 插值、YaRN 外推等方案,从原理到实战,帮助读者深入理解如何让模型突破训练时的长度限制,实现长文本的可靠建模。