摘要:http://dongxicheng.org/mapreduce/hadoop-join-two-tables/http://dongxicheng.org/mapreduce/run-hadoop-job-problems/http://dongxicheng.org/mapreduce/hdfs...
        阅读全文
        | 随笔分类 - Hadoop
摘要:http://dongxicheng.org/mapreduce/hadoop-join-two-tables/http://dongxicheng.org/mapreduce/run-hadoop-job-problems/http://dongxicheng.org/mapreduce/hdfs...
        阅读全文
 
摘要:本文转自http://ronxin999.blog.163.com/blog/static/42217920201279112163/
        阅读全文
 
摘要:1 Map side tuning参数1.1 MapTask运行内部原理 Input Split的大小,决定了一个Job拥有多少个map,默认64M每个Split,如果输入的数据量巨大,那么默认的64M的block会有几万甚至几十万的Map Task,集群的网络传输会很大,最严重的是给Job Tr...
        阅读全文
 
摘要:在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapR...
        阅读全文
 
摘要:TaskScheduler是MapReduce中的任务调度器。在MapReduce中,JobTracker接收JobClient提交的Job,将它们按InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务。然后,当一个TaskTracker通过心跳告知JobTracker自...
        阅读全文
 
摘要:InputFormat是MapReduce编程模型包括5个可编程组件之一,其余4个是Mapper、Partitioner、Reducer和OutputFormat。新版HadoopInputFormat是一个抽象类,之前的InputFormat是一个接口。InputFormat类有两个抽象方法。方法...
        阅读全文
 
摘要:http://www.dataguru.cn/article-4264-1.html
        阅读全文
 
摘要:运行Hadoop程序时,有时候会报以下错误:org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Namenode is in safe mode这个错误应该还满常见的吧(至少我运行的时候是这样的)那我们来分析下这个错误,从字面上来理解:Name node is in safe mode说明Hadoop的NameNode处在安全模式下。那什么是Hadoop的安全模式呢?在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直
        阅读全文
 
 |