摘要:HDFS文件存储系统的构成: 每个block块大小为什么默认是128M? 计算机硬盘吞吐速度为128M左右。(CPU,磁盘,网卡之间的协同效率 即 跨物理机/机架之间文件传输速率) block块大小设计原则:最小化寻址开销,减少网络传输。 1. 如果块设置过大 第一点: 从磁盘传输数据的时间会明显大
阅读全文
摘要:1.Map task输出k-v对 2.环形缓冲区 map阶段在最后会通过MapOutputBuffer来将数据暂时存储到一个环形缓冲区,在缓冲区写入的数据达到阈值(80%)后,才会开始从这里再写出到磁盘(落盘)。由此可见:环形缓冲区的设计直接影响Map Task的输出效率。 上面大致的流程中,我们不
阅读全文
摘要:零零整整接触了很久Hadoop框架以及它的生态圈,在此做一个总结。 1.首先来认识下Hadoop: Hadoop是一个由Apache基金会所开发的分布式系统的基础架构。它实现了一个分布式文件系统(Hadoop Distributed File System ==> HDFS)。 HDFS有高容错性的
阅读全文
摘要:HDFS文件存储系统,负责文件的上传与下载,包含NameNode(一个)和DataNode(多个)两个部分,其中,NameNode存储的是源文件,即文件的存放位置,根据这个位置定位到节点;而DataNode才是真正负责存储数据文件的节点; mapreduce计算引擎,启动工作任务对数据进行加工和处理
阅读全文
摘要:一、MapReduce特点: 简化并行计算的编程模型。只需要关心map和reduce两阶段即可,隐藏了很多系细节。 优点: 1.相对易于编程(从只需要分开,写map写reduce这个层面来讲,确实易于编程....和高阶工具没法比....) 2.可扩展性 3.高容错性(节点挂掉,yarn会调度新的节点
阅读全文
摘要:一、结构化数据直接上传 如果我们拿到要上传的数据是结构化的,那么就不需要在对数据做处理, 直接从本地上传到HDFS上即可。 代码层面也比较简单: public class UploadFileToHDFS { public static void main(String[] args) throws
阅读全文
摘要:Hadoop基本介绍 hadoop是一个框架: hadoop的本质其实就是一系列功能模块儿组成的框架,每个模块分别负责hadoop的一些功能,如HDFS负责大数据的存储功能;Yarn,负责整个集群的资源调度;Common则负责Hadoop远程过程调用的实现以及提供序列化机制。 hadoop具有高容错
阅读全文
摘要:主程序 共含有七个内容 1.修改系统名字并映射IP 2.修改静态IP,并配置IP,网关等 3.关闭防火墙 4.将yum源更改为国内的阿里源 5.安装并配置jdk 6.安装并初始化mysql 7.以上全部配置 主程序的参数依次为:按装选择、系统名字、想设置的静态IP地址 1 main_option()
阅读全文