摘要:        
之前也有写过从随机N条记录中选取M个随机记录的算法,但当时考虑的是N已知情形。(http://www.cnblogs.com/liyuxia713/archive/2012/05/25/2540709.html)若N未知,该怎么办呢? 有个算法是 蓄水池抽样算法,reservoir sample。什么情况下N未知呢? 比如记录个数特别多,在用集群处理的时候~ 方法介绍参考:http://handspeaker.iteye.com/blog/1167092下面是awk实现:#!/bin/shawk -F '\t' 'BEGIN{	sample_num=100000	idx    阅读全文
posted @ 2013-07-19 16:38
liyuxia713
阅读(371)
评论(0)
推荐(0)
        
 
                     
                    
                 
                    
                
 
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号