摘要: [Toc] 0. Yarn的来源 ​ hadoop 1.x的时代,并没有Yarn,hadoop核心组件只有HDFS和MapReduce。到了hadoop2.x才有了Yarn的诞生,组件包含HDFS,MapReduce和Yarn。 ​ 诞生原因:hadoop 1.x存在的最大问题就是资源管理问题。技术 阅读全文
posted @ 2019-11-04 14:44 西兰花是真的菜 阅读(694) 评论(0) 推荐(0) 编辑
摘要: [Toc] 接下来以一个简单的WordCount为例子,介绍Java版本的MapReduce的程序编写。 mapreduce程序主要分三部分:1.map部分,2.reduce部分,3.提交部分。 1. 准备部分 hadoop中,针对数据类型自成一体,与java的数据类型对应。封装在hadoop.io 阅读全文
posted @ 2019-10-15 19:58 西兰花是真的菜 阅读(280) 评论(0) 推荐(0) 编辑
摘要: [Toc] MapReduce背景 在程序由单机版扩成分布式版时,会引入大量的复杂工作。为了提高开发效率,可以将分布式程序中的公共功能封装成框架,让开发人员可以将精力集中于业务逻辑。Hadoop 当中的 MapReduce 就是这样的一个分布式程序运算框架。 MapReduce是什么 MapRedu 阅读全文
posted @ 2019-10-12 09:26 西兰花是真的菜 阅读(427) 评论(0) 推荐(0) 编辑
摘要: 集中式系统:由卓越性能的大型主机单机组成的计算机系统,称为集中式系统。 特点。单机运算能力强劲,部署结构简单。但是,拥有单点故障,且单机价格昂贵。 分布式系统:一个硬件或者软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统。 阅读全文
posted @ 2019-09-19 09:42 西兰花是真的菜 阅读(1104) 评论(0) 推荐(0) 编辑
摘要: [Toc] 首先,再回顾一下HDFS的架构图 HDFS写数据流程 1. 客户端发送请求,调用DistributedFileSystem API的create方法去请求namenode,并告诉namenode上传文件的文件名、文件大小、文件拥有者。 2. namenode根据以上信息算出文件需要切成多 阅读全文
posted @ 2019-09-08 16:12 西兰花是真的菜 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 序列化:将对象写入到IO流中 反序列化:从IO流中恢复对象 序列化机制将实现序列化的Java对象转化为字节数组序列。可以使对象可以脱离程序而独立运行 场景和要求:保存到磁盘;在网络中传输。要保存到磁盘和在远程传输的java对象要求都必须是可序列化的。 阅读全文
posted @ 2019-09-07 15:12 西兰花是真的菜 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 单CPU中进程只能是并发,多CPU计算机中进程可以并行。单CPU单核中线程只能并发,单CPU多核中线程可以并行。无论是并发还是并行,使用者来看,看到的是多进程,多线程。 阅读全文
posted @ 2019-09-05 20:32 西兰花是真的菜 阅读(29520) 评论(2) 推荐(12) 编辑
摘要: HDFS 将这些文件分割之后,存储在不同的 DataNode 上,HDFS 提供了通过Java API 对 HDFS 里面的文件进行操作的功能,数据块在 DataNode 上的存放位置,对于开发者来说是透明的。使用 Java API 可以完成对 HDFS 的各种操作,如新建文件、删除文件、读取文件内容等。 阅读全文
posted @ 2019-09-01 18:39 西兰花是真的菜 阅读(328) 评论(0) 推荐(0) 编辑
摘要: hdfs 常用 shell命令 阅读全文
posted @ 2019-08-30 01:12 西兰花是真的菜 阅读(418) 评论(0) 推荐(0) 编辑
摘要: HDFS:Hadoop Distributed File System ,Hadoop分布式文件系统,主要用来解决海量数据的存储问题。分NameNode、SecondaryNameNode、DataNode这几个角色。 阅读全文
posted @ 2019-08-28 00:56 西兰花是真的菜 阅读(710) 评论(0) 推荐(0) 编辑