代码改变世界

随笔档案-2013年4月25日

map和reduce 个数的设定 (Hive优化)经典

2013-04-25 14:44 by java20130722, 361 阅读, 收藏,
摘要: 一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(10m,20 阅读全文

Nutch 运行错误

2013-04-25 09:07 by java20130722, 126 阅读, 收藏,
摘要: Exception in thread "main" java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252) at org.apache.nutch.crawl.Injector.inject(Injector.java:217) at org.apache.nutch.crawl.Crawl.main(Crawl.java:124) 解决办法:在cygwin中输入:export LANG="zh_CN.GBK" 阅读全文