04 2013 档案
摘要:Hive中小表与大表关联(join)的性能分析 http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html要点:重复度较小的表(比如纬度表)放在前面,可以使得reduce过程中的检查过程变少,提高效率一骑绝尘引发的思考–关于hive程序员是否需要学习mapreduce http://www.alidata.org/archives/1083要点:使用hive的程序员需要知道MR的原理,就好比使用Java的程序员也需要了解GC的原理
阅读全文
摘要:本文目的到今天为止,Coursera上的课程Web Intelligence and Big Data[5]已经上到Week 3(从0开始计数,实际上是4周)。前几周讲了一些机器学习的算法,如LHS,PageRank,朴素贝叶斯分类器等。但是光有这些算法还不够,特别是在当前这种海量数据(Big Data)盛行的年代。所以,Week 3就聊到了一种通用的大数据处理解决方法 —— Map Reduce(后面简称MR)。此方法最初来自Google的一篇论文[1],现在用来指代一种编程方式,主要作用与大规模数据集(通常在1T以上)的并行计算(很多算法都可以用MR方式实现)。本周课程主要内容介绍了MR的
阅读全文
摘要:问题背景 给出N个集合,找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2)。当N比较小时,比如K级,此算法可以在接受的时间范围内完成,但是如果N变大时,比B级,甚至P级,那么需要的时间是不能够被接受的。比如N= 1B = 1,000,000,000。一台计算机每秒可以比较1,000,000,000对集合是否...
阅读全文