统计文本出现次数并排序

假如有如下保存url的文件all_urls:

http://www.baidu.com
http://www.sina.com
http://www.baidu.com
http://www.sohu.com
http://www.baidu.com
http://www.sina.com

想统计不同url出现的次数,并按照从大到小的顺序排列,只需一行简单的shell脚本就可以了:

cat all_urls|sort|uniq -c |sort -k1 -nr|awk '{print $2}'

结果如下:

http://www.baidu.com
http://www.sina.com
http://www.sohu.com

千万量级以内的统计,都可以随手计算,计算时间在可以接受的范围内,无需动用mapreduce。

posted @ 2012-09-20 17:49  刘浩de技术博客  阅读(821)  评论(2编辑  收藏  举报