文章分类 -  hadoop

摘要:MapReduce编程模型之执行步骤: 准备map处理的输入数据 Mapper处理 shuffle处理 reduce处理 InputFormat:将我们的输入数据进行分片(Split):InputSplit[] getSplitss() TextInptFormat:处理文本格式的数据 output 阅读全文
posted @ 2019-01-13 19:58 zlAdmin 阅读(296) 评论(0) 推荐(0)
摘要:使用版本:hadoop-2.6.0-cdh5.7.0 需要修改的文件:yarn-site.xml mapred-site.xml 1.修改配合文件:etc/hadoop/mapred-site.xml: 告诉yarn框架MapReduce是跑在yarn之上的 编辑时候发现没有mapred-site. 阅读全文
posted @ 2018-12-04 22:11 zlAdmin 阅读(288) 评论(0) 推荐(0)
摘要:YARN:不同计算框架可以共享同一个HDFS集群上的数据,享受整体的资源调度 YARN架构: 1)ResourceManager:RM 整个集群中同一时间只有一个提供服务,负责集群资源的统一管理和调度; 处理客户端请求,提交一个作业、杀死一个作业; 监控NM,一旦NM挂了,那么该NM上运行的任务需要 阅读全文
posted @ 2018-12-04 21:55 zlAdmin 阅读(146) 评论(0) 推荐(0)
摘要:搭建环境为:IDEA+MAVEN创建工程 步骤1:打开IDEA,新建项目,选择maven-archetype-quickstart,创建成功后如图: 步骤2:添加hadoop的maven依赖 此处添加依赖为: 阅读全文
posted @ 2018-12-02 21:16 zlAdmin 阅读(263) 评论(0) 推荐(0)
摘要:此处主要介绍一下命令: 1:ls 查询根目录下的文件; 递归查看根,目录下所有的文件和目录:hadoop fs -ls -R / 2:mkdir 在根目录上创建一个test文件夹 查看:hadoop fs -l / 就可以看到下面文件:一个上传的test.txt文件和一个test的文件夹 递归创建文 阅读全文
posted @ 2018-12-02 18:53 zlAdmin 阅读(5486) 评论(1) 推荐(1)
摘要:前提和设计目标 硬件错误 硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS最核心的架构目标 阅读全文
posted @ 2018-12-02 17:56 zlAdmin 阅读(323) 评论(0) 推荐(0)
摘要:什么是Hadoop? 开源的,可靠的,可扩展,分布式的计算框架;可以搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务;(搜索引擎,日志分析,商业智能,数据分析) hadoop的模块: Hadoop Common : HDFS: YARN: MapReduce: Hadoop核心组件之分布式 阅读全文
posted @ 2018-12-02 15:23 zlAdmin 阅读(102) 评论(0) 推荐(0)