老王和小杨 - 博客园

2018年4月28日

摘要：一、YARN产生的背景 MapReduce1.x存在的问题：单点故障&节点压力大不易扩展。资源利用率&成本催生了YARN的诞生不同计算框架可以共享同一个HDFS集群上的数据，享受整体的资源调度。 XXX on YARN的好处：与其他计算框架共享集群资源，按资源需要分配，进而提高集群资源的利用率阅读全文

posted @ 2018-04-28 15:40 老王和小杨阅读(1359) 评论(0) 推荐(0)

hadoop学习笔记（十一）：MapReduce数据类型

摘要：一、序列化 1 hadoop自定义了数据类型，在hadoop中，所有的key/value类型必须实现Writable接口。有两个方法，一个是write，一个是readFileds。分别用于读（反序列化操作）和写（序列化操作）。 2 所有的key必须实现Comparable接口，在MapReduce过阅读全文

posted @ 2018-04-28 11:00 老王和小杨阅读(2060) 评论(0) 推荐(0)

2018年4月27日

hadoop学习笔记（十）：MapReduce工作原理（重点）

摘要：一、MapReduce完整运行流程解析： 1 在客户端启动一个作业。 2 向JobTracker请求一个Job ID。 3 将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的jar文件、配置文件和客户端计算所得的计算划分信息。这些文件都存放在JobTracker专门为该作阅读全文

posted @ 2018-04-27 15:53 老王和小杨阅读(28142) 评论(4) 推荐(6)

hadoop学习笔记（九）：MapReduce程序的编写

摘要：一、MapReduce主要继承两个父类： Map Reduce 二、使用代码实现WordCount： 1 package com.laowang.mapreduce; 2 3 import org.apache.hadoop.conf.Configuration; 4 import org.apac 阅读全文

posted @ 2018-04-27 13:16 老王和小杨阅读(1516) 评论(0) 推荐(0)

hadoop学习笔记（八）：MapReduce

摘要：一、MapReduce编程模型一种分布式计算框架，解决海量数据的计算问题。 MapReduce将整个并行计算过程抽象到两个函数： Map（映射）：对一些独立元素组成的列表的每一个元素进行制定的操作，可以高度并行。 Reduce（化简）：对一个列表的元素进行合并。一个简单的MapReduce程序只阅读全文

posted @ 2018-04-27 10:02 老王和小杨阅读(1042) 评论(0) 推荐(0)

2018年4月26日

hadoop学习笔记（七）：Java HDFS API

摘要：一、使用HDFS FileSystem详解 HDFS依赖的第三方包： hadoop 1.x版本： commons-configuration-1.6.jar commons-lang-2.4.jar commons-loggin-1.1.1.jar hadoop-core-1.2.1.jar log 阅读全文

posted @ 2018-04-26 15:48 老王和小杨阅读(723) 评论(0) 推荐(0)

hadoop学习笔记（六）：HDFS文件的读写流程

摘要：一、HDFS读取文件流程：详解读取流程： Client调用FileSystem.open()方法： 1 FileSystem通过RPC与NN通信，NN返回该文件的部分或全部block列表（含有block拷贝的DN地址）。 2 选取举栗客户端最近的DN建立连接，读取block，返回FSDataInp 阅读全文

posted @ 2018-04-26 10:11 老王和小杨阅读(3987) 评论(0) 推荐(0)

2018年4月25日

hadoop学习笔记（五）：HDFS Shell命令

摘要：一、HDFS文件命令以下是比较重要的一些命令：二、HDFS管理命令三、HDFS文件管理工具四、HDFS任务调度命令阅读全文

posted @ 2018-04-25 16:55 老王和小杨阅读(704) 评论(0) 推荐(0)

hadoop学习笔记（四）：HDFS

摘要：一、HDFS体系结构 1 HDFS假设条件数据流访问大数据集简单相关模型移动计算比移动数据便宜多种软硬件平台中的可移植性 2 HDFS的设计目标非常巨大的分布式文件系统运行于普通硬件上优化批处理用户控件可以位于异构的操作系统中在整个集群中使用单一的命名空间数据一致性文件被分为阅读全文

posted @ 2018-04-25 16:21 老王和小杨阅读(988) 评论(1) 推荐(1)

hadoop学习笔记（三）：hadoop文件结构

摘要： hadoop完整安装目录结构：比较重要的包有以下4个： src hadoop源码包。最核心的代码所在目录为core、hdfs和mapred，他们分别实现了hadoop最重要的3个模块：基础公共库、HDFS实现和MapReduce实现 conf 配置文件所在目录。hadoop的配置文件较多，其设计原阅读全文

posted @ 2018-04-25 13:36 老王和小杨阅读(754) 评论(0) 推荐(0)

星火燎原

公告