随笔分类 -  hive/hadoop

摘要:本例中直接用python写一个MapReduce实例:统计输入文件的单词的词频使用python写MapReduce的“诀窍”是利用Hadoop流的API,通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。我们唯一需要做的是利用Python的sys.std... 阅读全文
posted @ 2015-01-29 20:20 apple飘98 阅读(181) 评论(0) 推荐(0)
摘要:数据倾斜:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大,通常可能达到3倍甚至更多。 最长时长远大于平均时长。解决数据倾斜,归根结底是使map的... 阅读全文
posted @ 2015-01-28 15:15 apple飘98 阅读(474) 评论(0) 推荐(0)