蓄水池抽样如何从数据流中等概率采样？

Question 1

蓄水池抽样如何从数据流中等概率采样？

Accepted Answer

蓄水池抽样（Reservoir Sampling）解决「流式数据中等概率抽样」问题。先取 k=1 的情形：维护一个变量 res，遍历到第 i 个元素时，以 1/i 的概率把 res 更新为该元素。第 i 个元素最终被保留的概率为：选中它（1/i）× 之后第 i+1..n 个都没替换它，即 (1/i)·(i/(i+1))·((i+1)/(i+2))···((n-1)/n) = 1/n，对所有 i 都成立，故等概率。

一般 k 的情形：前 k 个元素直接放入池中；从第 i=k+1 个元素起，以 k/i 的概率决定是否「入池」，若入池则随机选池中一个位置（0..k-1）替换掉。归纳证明：第 i 个元素被选概率为 k/i（入池），此后每一步存活概率为「不发生替换」+「发生替换但没选到它」= (1 - k/(j) · 1/k) 对 j=i+1..n，乘积化简后整体概率为 k/n。每个元素被选概率相等且为 k/n。

Question 2

为什么 k=1 时第 1 个元素和第 n 个元素被选概率相同？

Accepted Answer

第 1 个元素以 1/1 入池，但要存活需后续 n-1 步都不替换它，概率为 (1/2)(2/3)···((n-1)/n)=1/n；第 n 个元素直接以 1/n 概率替换入池且无后续，也是 1/n。两者相等。

Question 3

如果要按权重加权采样怎么办？

Accepted Answer

用 A-Res 算法：为每个元素生成 key = u^(1/w)（u 为 (0,1) 均匀随机，w 为权重），维护 key 最大的 k 个元素（小顶堆）。等价于按权重不放回抽样。

蓄水池抽样如何从数据流中等概率采样？

核心要点

标准回答

常见误区

追问

延伸学习