NashZhou

广告算法工程师,目前致力于关键词广告的效果自动优化

编程珠玑2-第13章 绝妙的取样

本章主要探讨如何设计一个高效率的随机算法,这个算法可以产生m个从1到n之间的不同的随机数。

许多算法基于下列伪代码,称之为算法S

1 initialize set S to empty
2 Size:=0
3 while Size<m do
4 T:=RandInt(1,N)
5 if T is not in S then
6 insert T in S
7 Size:=Size+1

这个算法有一个致命的缺陷是每新产生一个随机数都要判断其是否已经被集合S包含。

通常情况下,如果不借用其它数据结构,就需要遍历整个集合S。

最极端的情况是m=n且T:=RandInt(1,N) 此时将是灰常可怕的。

我能想到的一种改进算法是

1 for I:=1 to N do
2 X[I]=I;
3 for I:=1 to M do
4 {
5 J:=RandInt(I,N);
6 Swap(X[J],X[I]);
7 }

这个算法有如下一些优点:

1.不需要判断产生的随机数是否已经存在。

2.产生的随机数是无序的,适合排序。

3.其算法性能不受M与N的关系限制。

其代价就是要多消耗O(N-M)的空间,其运行时间为O(N)

如果N>>M,这个算法无论从哪个角度讲都是无法接受的。
下面我们给出Floyd算法,在N>>M时,更有效率。

 1 function Sample(M,N)
2 if M=0 then
3 return the empty set
4 else
5 S:=Sample(M-1,N-1)
6 T:=RandInt(1,N)
7 if T is not in S then
8 insert T in S
9 else
10 insert N in S

 Floyd算法的结构很容易递归的理解:为了从1..10中产生一个5元素样本,首先从1..9中产生一个4元素样本,然后在加上第5个元素。

我们用归纳法证明每个元素被取到的概率是一样的。

当M=1时,显然成立。假设Sample(M-1,N-1)成立,即1..N-1被取到的概率都是M-1/N-1。

那么在Sample(M,N)中,N被取到的概率为1/N+M-1/N=M/N.

对于1..N-1中的任意数一个数,在Sample(M,N)中被取到的概率是M-1/N-1+(1-M-1/N-1)/N=M/N.证毕

Floyd通过引入一个新变量将上述算法改写成迭代形式:

1 initialize set S to empty
2 for J:=N-M+1 to N do
3 T:=RandInt(1,J)
4 if T is not in S then
5 insert T in S
6 else
7 insert J in S

 改进后的算法虽然取消了递归,但是这个M个随机数是从小到大排列的。某些情况可能要求随机数是随机分布的。

事实上可以对算法稍微修改下,比如引入随机位置插入新产生的随机数就可以满足要求。

 

posted on 2012-02-27 20:45  NashZhou  阅读(713)  评论(0编辑  收藏  举报

导航