问题抽象为:从n个数中随机采样k个,每个数被采样的概率是k/n。

算法:

将n个数按顺序编号1,2,3,...,k,k+1,k+2,...k+n-k

选前k个数放到蓄水池里,

对于i = 1...n-k

按k/(k+i)的概率采样第k+i个数,然后随机跟蓄水池里的一个数替换。

求证:遍历到结尾时,每个数出现在蓄水池里的概率都是k/n

证明:

(1) 对于前k个样本中的任意一个x,尽头时仍在蓄水池里的概率是:

P(k之后的每一个数都没有替换x)

= P(k+1没有替换x)*P(k+2没有替换x)*...*P(n没有替换x)

= [1-(k/k+1 x 1/k)] *[1-(k/k+2 x 1/k)]*...*[1-(k/n x 1/k)]

= k/(k+1)*(k+1)/(k+2)*(n-1)/n

= k/n (2)对于k之后的k+i,尽头时出现在蓄水池的概率是:

P(k+i被选中且之后没有被替换)

= P(k+i被选中)*P(k+i+1没有替换k+i)*...*P(n没有替换k+i)

= k/(k+i)*[1-(k/k+i+1*1/k)]*...* [1-(k/n x 1/k)]

= k/(k+i)*(k+i)/(k+i+1)*…*(n-1)/n

= k/n

综合(1)和(2),遍历到结尾时,每个数出现在蓄水池里的概率都是k/n。

证明结束。