摘要:一、YARN产生的背景 MapReduce1.x存在的问题:单点故障&节点压力大不易扩展。 资源利用率&成本 催生了YARN的诞生 不同计算框架可以共享同一个HDFS集群上的数据,享受整体的资源调度。 XXX on YARN的好处:与其他计算框架共享集群资源,按资源需要分配,进而提高集群资源的利用率 阅读全文
posted @ 2018-04-28 15:40 老王和小杨 阅读 (875) 评论 (0) 编辑
摘要:一、序列化 1 hadoop自定义了数据类型,在hadoop中,所有的key/value类型必须实现Writable接口。有两个方法,一个是write,一个是readFileds。分别用于读(反序列化操作)和写(序列化操作)。 2 所有的key必须实现Comparable接口,在MapReduce过 阅读全文
posted @ 2018-04-28 11:00 老王和小杨 阅读 (589) 评论 (0) 编辑
摘要:一、MapReduce完整运行流程 解析: 1 在客户端启动一个作业。 2 向JobTracker请求一个Job ID。 3 将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的jar文件、配置文件和客户端计算所得的计算划分信息。这些文件都存放在JobTracker专门为该作 阅读全文
posted @ 2018-04-27 15:53 老王和小杨 阅读 (22752) 评论 (4) 编辑
摘要:一、MapReduce主要继承两个父类: Map Reduce 二、使用代码实现WordCount: 1 package com.laowang.mapreduce; 2 3 import org.apache.hadoop.conf.Configuration; 4 import org.apac 阅读全文
posted @ 2018-04-27 13:16 老王和小杨 阅读 (1025) 评论 (0) 编辑
摘要:一、MapReduce编程模型 一种分布式计算框架,解决海量数据的计算问题。 MapReduce将整个并行计算过程抽象到两个函数: Map(映射):对一些独立元素组成的列表的每一个元素进行制定的操作,可以高度并行。 Reduce(化简):对一个列表的元素进行合并。 一个简单的MapReduce程序只 阅读全文
posted @ 2018-04-27 10:02 老王和小杨 阅读 (716) 评论 (0) 编辑
摘要:一、使用HDFS FileSystem详解 HDFS依赖的第三方包: hadoop 1.x版本: commons-configuration-1.6.jar commons-lang-2.4.jar commons-loggin-1.1.1.jar hadoop-core-1.2.1.jar log 阅读全文
posted @ 2018-04-26 15:48 老王和小杨 阅读 (434) 评论 (0) 编辑
摘要:一、HDFS读取文件流程: 详解读取流程: Client调用FileSystem.open()方法: 1 FileSystem通过RPC与NN通信,NN返回该文件的部分或全部block列表(含有block拷贝的DN地址)。 2 选取举栗客户端最近的DN建立连接,读取block,返回FSDataInp 阅读全文
posted @ 2018-04-26 10:11 老王和小杨 阅读 (2190) 评论 (0) 编辑
摘要:一、HDFS文件命令 以下是比较重要的一些命令: 二、HDFS管理命令 三、HDFS文件管理工具 四、HDFS任务调度命令 阅读全文
posted @ 2018-04-25 16:55 老王和小杨 阅读 (387) 评论 (0) 编辑
摘要:一、HDFS体系结构 1 HDFS假设条件 数据流访问 大数据集 简单相关模型 移动计算比移动数据便宜 多种软硬件平台中的可移植性 2 HDFS的设计目标 非常巨大的分布式文件系统 运行于普通硬件上 优化批处理 用户控件可以位于异构的操作系统中 在整个集群中使用单一的命名空间 数据一致性 文件被分为 阅读全文
posted @ 2018-04-25 16:21 老王和小杨 阅读 (512) 评论 (1) 编辑
摘要:hadoop完整安装目录结构: 比较重要的包有以下4个: src hadoop源码包。最核心的代码所在目录为core、hdfs和mapred,他们分别实现了hadoop最重要的3个模块:基础公共库、HDFS实现和MapReduce实现 conf 配置文件所在目录。hadoop的配置文件较多,其设计原 阅读全文
posted @ 2018-04-25 13:36 老王和小杨 阅读 (428) 评论 (0) 编辑