随笔档案「2013年4月25日」：map和reduce 个数的设定（Hive优化）经典 ... - java20130722

随笔档案-2013年4月25日

map和reduce 个数的设定（Hive优化）经典

2013-04-25 14:44 by java20130722, 364 阅读, 收藏,

摘要：一、控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例：a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m，20m，130m，那么hadoop会分隔成4个块（10m,20 阅读全文

0 Comment

Nutch 运行错误

2013-04-25 09:07 by java20130722, 130 阅读, 收藏,

摘要： Exception in thread "main" java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252) at org.apache.nutch.crawl.Injector.inject(Injector.java:217) at org.apache.nutch.crawl.Crawl.main(Crawl.java:124) 解决办法：在cygwin中输入：export LANG="zh_CN.GBK" 阅读全文

0 Comment

java20130722