随笔分类 - Hadoop专栏
摘要:一、前述 分享一篇hadoop的常用命令的总结,将常用的Hadoop命令总结如下。 二、具体 1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh 但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。 2、
阅读全文
摘要:一。前述 Reduce文件会从Mapper任务中拉取很多小文件,小文件内部有序,但是整体是没序的,Reduce会合并小文件,然后套个归并算法,变成一个整体有序的文件。 二。代码 ReduceTask源码: 源码1.1排序比较器,当用户不设置的时候取排序比较器实现,此时如果用户配置排序比较器,用排序比
阅读全文
摘要:一。前述 上次讲完MapReduce的输入后,这次开始讲MapReduce的输出。注意MapReduce的原语很重要: “相同”的key为一组,调用一次reduce方法,方法内迭代这一组数据进行计算!!!!! 二。代码 继续看MapTask任务。 解析一。构造OutPut对象: 解析1.1 解析源码
阅读全文
摘要:一。前述 上次分析了客户端源码,这次分析mapper源码让大家对hadoop框架有更清晰的认识 二。代码 自定义代码如下: 继承Mapper源码如下: 解析:我们重新了map方法,所以传进run方法中才能不断执行。 MapperTask源码解析: Container封装了一个脚本命令,通过远程调用启
阅读全文
摘要:一。前述 今天起剖析源码,先从Client看起,因为Client在MapReduce的过程中承担了很多重要的角色。 二。MapReduce框架主类 代码如下: 第一步,先分析Job,可以看见源码中Job实现了public class Job extends JobContextImpl implem
阅读全文
摘要:一。前述 有了上次hadoop集群的搭建,搭建yarn就简单多了。废话不多说,直接来 二。规划 三。配置如下 yarn-site.xml配置 <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle<
阅读全文
摘要:一。前述 本来有套好好的集群,可是不知道为什么虚拟机镜像文件损坏,结果导致集群不能用。所以不得不重新搭套集群,借此机会顺便再重新搭套吧,顺便提醒一句大家,自己虚拟机的集群一定要及时做好快照,最好装完每个东西后记得拍摄快照。要不搞工具真的很浪费时间,时间一定要用在刀刃上。废话不多说,开始准备环境搭建,
阅读全文


浙公网安备 33010602011771号