随笔分类 -  Hadoop

Hadoop 少量map/reduce任务执行慢问题
摘要:最近在做报表统计,跑hadoop任务。 之前也跑过map/reduce但是数据量不大,遇到某些map/reduce执行时间特别长的问题。 执行时间长有几种可能性: 1. 单个map/reduce任务处理的任务大。 需要注意每个任务的数据处理量大小不至于偏差太大。可以切割部分大文件。 2. map数量 阅读全文

posted @ 2017-12-23 10:53 旭东的博客 阅读(4485) 评论(0) 推荐(0)

Hadoop streaming 排序、分桶参数设置
摘要:编写hadoop任务经常需要用到partition和排序。这里记录一下几个参数。 1. 概念 Partition:分桶过程,用户输出的key经过partition分发到不同的reduce里,因而partitioner就是分桶器,一般用平台默认的hash分桶也可以自己指定。Key:是需要排序的字段,相 阅读全文

posted @ 2017-12-16 11:06 旭东的博客 阅读(3585) 评论(0) 推荐(0)

导航