摘要: 对Hadoop TeraSort的介绍可以参见董大神的博客Hadoop中TeraSort算法分析以下就记录下测试过程TeraGen中SortGenMapper的addKey生成了10byte的Key,addRowId生成了88byte的Value,再加上每行的结束符,一行Tera记录是100byte。通过设置map task的数量可以控制输出文件的个数#生成了1MB的数据并在HDFS中创建1M的目录来存储,目录中包括4个文件,每个文件2500Byteshadoop jar hadoop-0.20.2-examples.jar teragen -D mapred.map.tasks=4 1000 阅读全文
posted @ 2013-04-17 09:09 asdffdas 阅读(1230) 评论(0) 推荐(0) 编辑