HNSW

图结构近邻索引

亦作、亦称：Hierarchical Navigable Small World

HNSW（Hierarchical Navigable Small World）是目前综合性能最优的近似最近邻搜索算法之一，通过构建多层小世界图结构，在高维向量空间中以极低延迟完成高召回率的近邻查找，是现代向量数据库的核心索引技术。

概述

HNSW 解决的核心问题是：从数百万乃至数十亿条高维向量中快速找到与查询向量最相似的若干条。

ANN 搜索：Approximate Nearest Neighbor，用少量召回损失换取数量级的速度提升，是语义检索、RAG 管道、推荐召回的基础操作。
图索引方案：相比基于树（KD-Tree）或量化（IVF+PQ）的方案，HNSW 在高维空间中具有更稳定的召回率-延迟权衡曲线。
广泛落地：Faiss、Qdrant、Milvus、Weaviate、pgvector 等主流向量数据库均原生支持 HNSW 作为默认索引。
论文背景：2016 年提出，2018 年发表于 IEEE TPAMI，被 ANN-Benchmarks 公开基准长期评为 Pareto 最优方案之一。

HNSW 的设计灵感来自「小世界网络」——任意两点只需极少跳数便可到达，再叠加「层级」结构实现由粗到细的导航。

HNSW 分为构建阶段和查询阶段，核心由三个关键参数控制。

HNSW 已成为多个 AI 工程方向的标准检索组件。

HNSW 在 ANN 算法家族中有鲜明的定位优势与局限。

HNSW vs IVF（倒排文件索引）：IVF 需预先聚类训练且动态插入需重建，HNSW 支持增量插入；但 IVF+PQ 内存占用更低，适合超大规模离线场景。
HNSW vs 精确 NN（如 IndexFlatL2）：精确搜索无召回损失，但速度慢数量级；HNSW 是近似方案，百万量级时速度优势显著。
HNSW vs DiskANN（微软）：DiskANN 将图索引存储于磁盘，可处理内存放不下的十亿级数据；HNSW 全量驻内存，延迟更低。
HNSW vs ScaNN（Google）：ScaNN 利用量化与各向异性哈希在特定硬件上吞吐更高；HNSW 通用性和社区支持更强。
HNSW vs BM25：BM25 是基于词频的稀疏检索；HNSW 做稠密向量检索；两者结合即混合检索（Hybrid Search）。

使用 HNSW 时有几类常见的工程陷阱。

HNSW 有清晰的演进路径，从单层图到层级图，再到工程生态的全面普及。

约 2012 年：Malkov 等人提出 NSW（Navigable Small World），使用单层小世界图做 ANN，但高维下存在路由瓶颈。
2016 年：Malkov 和 Yashunin 引入层级结构，提出 HNSW，解决了 NSW 的扩展性问题，在 ANN-Benchmarks 上大幅领先同期方案。
2018 年：HNSW 论文正式发表于 IEEE TPAMI，成为学术标准参考。
2019 年前后：Faiss（Meta）加入 IndexHNSWFlat，Qdrant、Weaviate、Milvus 等向量数据库相继将 HNSW 列为默认索引。
2021–2023 年：DiskANN（微软）和 ScaNN（Google）挑战 HNSW 在超大规模场景下的地位；量化感知图索引（HNSW+SQ/PQ 混合）成为研究热点。
2024 年至今：随着 RAG 工程化普及，HNSW 成为大模型应用栈的标配检索组件，云向量数据库服务大量基于其变体构建。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。