如何用堆 / 优先队列解 Top-K 问题？

Question 1

Accepted Answer

Top-K 问题（找最大或最小的 K 个元素）的高效解法是维护一个大小固定为 k 的堆。求「最大的 K 个」时用最小堆：堆顶恰好是当前 k 个候选里最小的，遍历到新元素时，若堆未满直接放入，若已满则只有当新元素大于堆顶时才替换堆顶——这样能保证堆里始终是已遍历元素中最大的 k 个。相比全排序的 O(n log n)，这种做法是 O(n log k)，且只需 O(k) 空间，特别适合数据量远大于 k 的场景。Python 用 heapq（最小堆）实现：

Question 2

为什么是最小堆而不是最大堆？复杂度对比全排序？

Accepted Answer

因为要不断淘汰当前候选里最小的那个，最小堆的堆顶 O(1) 可见、O(log k) 可换。整体 O(n log k)，优于全排序 O(n log n)（当 k 远小于 n 时）。若用最大堆需弹出 k 次取 Top-K，建堆 O(n)、取 k 次 O(k log n)。

Question 3

还有没有更快的 Top-K 解法？

Accepted Answer

用快速选择（Quickselect，基于快排 partition）可在平均 O(n) 时间找到第 k 大元素并划分出 Top-K，但最坏 O(n²)（可随机化或用中位数的中位数避免）。堆法的优势是天然支持流式/海量数据，无需把全部数据载入内存。

如何用堆 / 优先队列解 Top-K 问题？

核心要点

标准回答

常见误区

追问

延伸学习