随笔分类 -  hadoop生态圈

摘要:一、Yarn基本架构 二、Yarn工作机制 三、作业提交全过程 3.1、作业提交过程之YARN 3.2、作业提交过程之MapReduce 四、资源调度器 4.1、先进先出调度器(FIFO) 4.2、容量调度器(Capacity Scheduler) 4.3、公平调度器(Fair Scheduler) 阅读全文
posted @ 2021-01-27 15:33 运维人在路上 阅读(160) 评论(0) 推荐(0)
摘要:一、数据压缩 1.1、概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘I/O和 阅读全文
posted @ 2021-01-27 10:53 运维人在路上 阅读(281) 评论(0) 推荐(0)
摘要:一、OutputFormat数据输出 1.1、OutputFormat接口实现类 OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了 OutputFormat接口。下面我们介绍几种常见的OutputFormat实现类。 1)文本输出TextOutputFo 阅读全文
posted @ 2021-01-26 14:58 运维人在路上 阅读(525) 评论(0) 推荐(0)
摘要:一、InputFormat数据输入 1.1、切片与MapTask并行度决定机制 1)问题引出 1.2、Job提交流程源码和切片源码详解 1.2.1、Job提交流程源码详解 1.2.2、FileInputFormat切片源码解析(input.getSplits(job)) /** * Generate 阅读全文
posted @ 2021-01-22 11:43 运维人在路上 阅读(204) 评论(0) 推荐(0)
摘要:一、MapReduce概述 1.1、MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 阅读全文
posted @ 2021-01-20 19:49 运维人在路上 阅读(376) 评论(0) 推荐(0)
摘要:一、NameNode和SecondaryNameNode 1.1、NN和2NN工作机制 1.2、Fsimage和Edits解析 1.2.1、Fsimage和Edits概念 NameNode被格式化之后,将在/opt/module/hadoop-2.7.2/data/tmp/dfs/name/curr 阅读全文
posted @ 2021-01-19 16:19 运维人在路上 阅读(899) 评论(0) 推荐(0)
摘要:一、HDFS客户端环境准备 二、HDFS客户端API操作 2.1、HDFS文件上传(测试参数优先级) 2.2、HDFS文件下载 1)编写源代码 2.3、HDFS文件夹删除 2.4、HDFS文件名更改 2.5、HDFS文件详情查看 2.6、HDFS文件和文件夹判断 2.7、HDFS的I/O流操作 2. 阅读全文
posted @ 2021-01-18 17:18 运维人在路上 阅读(561) 评论(0) 推荐(0)
摘要:一、HDFS概述 1.1、HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 1.2、HDFS定义 HDFS(H 阅读全文
posted @ 2021-01-18 15:26 运维人在路上 阅读(273) 评论(0) 推荐(0)
摘要:一、前期准备 二、jar包安装 三、编译源码 阅读全文
posted @ 2021-01-18 14:55 运维人在路上 阅读(280) 评论(0) 推荐(0)
摘要:一、Hadoop运行环境搭建 准备干净的Centos7虚拟机,关闭防火墙,selinux,修改好主机名,添加主机映射 1.1、创建普通用户并授权 1.2、创建文件夹并授权 1.3、安装jdk 1.4、安装Hadoop 1.5、Hadoop目录结构 二、Hadoop运行模式-本地运行模式 文档:htt 阅读全文
posted @ 2021-01-15 15:30 运维人在路上 阅读(534) 评论(0) 推荐(0)
摘要:一、大数据介绍 1.1、大数据概念 1)大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 2)主要解决,海量数据的存储和海量数据的分析计算问题。 3)按顺 阅读全文
posted @ 2021-01-15 14:36 运维人在路上 阅读(742) 评论(0) 推荐(0)