Hadoop - 随笔分类 - 理想三旬_z

3.HDFS存储系统

摘要：HDFS文件存储系统的构成：每个block块大小为什么默认是128M？计算机硬盘吞吐速度为128M左右。（CPU,磁盘,网卡之间的协同效率即跨物理机/机架之间文件传输速率） block块大小设计原则：最小化寻址开销，减少网络传输。 1. 如果块设置过大第一点: 从磁盘传输数据的时间会明显大阅读全文

posted @ 2021-10-20 19:17 理想三旬_z 阅读(284) 评论(0) 推荐(0)

MapReduce中的shuffle过程

摘要：1.Map task输出k-v对 2.环形缓冲区 map阶段在最后会通过MapOutputBuffer来将数据暂时存储到一个环形缓冲区，在缓冲区写入的数据达到阈值（80%）后，才会开始从这里再写出到磁盘（落盘）。由此可见：环形缓冲区的设计直接影响Map Task的输出效率。上面大致的流程中，我们不阅读全文

posted @ 2021-10-19 23:02 理想三旬_z 阅读(407) 评论(0) 推荐(0)

总结Hadoop框架

摘要：零零整整接触了很久Hadoop框架以及它的生态圈，在此做一个总结。 1.首先来认识下Hadoop： Hadoop是一个由Apache基金会所开发的分布式系统的基础架构。它实现了一个分布式文件系统（Hadoop Distributed File System ==> HDFS）。 HDFS有高容错性的阅读全文

posted @ 2021-10-15 23:17 理想三旬_z 阅读(187) 评论(0) 推荐(0)

整个Hadoop框架工作流程

摘要：HDFS文件存储系统，负责文件的上传与下载，包含NameNode（一个）和DataNode（多个）两个部分，其中，NameNode存储的是源文件，即文件的存放位置，根据这个位置定位到节点；而DataNode才是真正负责存储数据文件的节点； mapreduce计算引擎，启动工作任务对数据进行加工和处理阅读全文

posted @ 2021-09-17 02:58 理想三旬_z 阅读(331) 评论(0) 推荐(0)

5.MapRecuce

摘要：一、MapReduce特点：简化并行计算的编程模型。只需要关心map和reduce两阶段即可，隐藏了很多系细节。优点： 1.相对易于编程（从只需要分开，写map写reduce这个层面来讲，确实易于编程....和高阶工具没法比....） 2.可扩展性 3.高容错性（节点挂掉，yarn会调度新的节点阅读全文

posted @ 2021-09-16 00:09 理想三旬_z 阅读(65) 评论(0) 推荐(0)

4.从本地上传文件至HDFS

摘要：一、结构化数据直接上传如果我们拿到要上传的数据是结构化的，那么就不需要在对数据做处理，直接从本地上传到HDFS上即可。代码层面也比较简单： public class UploadFileToHDFS { public static void main(String[] args) throws 阅读全文

posted @ 2021-09-15 19:13 理想三旬_z 阅读(1784) 评论(0) 推荐(0)

1.Hadoop简介以及伪分布式的搭建

摘要：Hadoop基本介绍 hadoop是一个框架： hadoop的本质其实就是一系列功能模块儿组成的框架，每个模块分别负责hadoop的一些功能，如HDFS负责大数据的存储功能；Yarn，负责整个集群的资源调度；Common则负责Hadoop远程过程调用的实现以及提供序列化机制。 hadoop具有高容错阅读全文

posted @ 2021-09-08 22:32 理想三旬_z 阅读(266) 评论(0) 推荐(0)

2.写一个Centos7下一键配置系统及jdk、mysql的脚本

摘要：主程序共含有七个内容 1.修改系统名字并映射IP 2.修改静态IP，并配置IP，网关等 3.关闭防火墙 4.将yum源更改为国内的阿里源 5.安装并配置jdk 6.安装并初始化mysql 7.以上全部配置主程序的参数依次为：按装选择、系统名字、想设置的静态IP地址 1 main_option() 阅读全文

posted @ 2021-09-07 22:53 理想三旬_z 阅读(91) 评论(0) 推荐(0)

随笔分类 - Hadoop