随笔分类 -  Hadoop深究

摘要:一、Hadoop小文件优化方法 1.Hadoop小文件弊端 HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢 阅读全文
posted @ 2021-09-10 17:20 年少纵马且长歌 阅读(146) 评论(0) 推荐(0)
摘要:一、Resourcemanager相关 yarn.resourcemanager.scheduler.client.thread-count ResourceManager处理调度器请求的线程数量 yarn.resourcemanager.scheduler.class 配置调度器 二、Nodema 阅读全文
posted @ 2021-09-10 17:19 年少纵马且长歌 阅读(122) 评论(0) 推荐(0)
摘要:一、MapReduce跑的慢的原因 MapReduce程序效率的瓶颈在于两点: #1.计算机性能 CPU、内存、磁盘、网络 #2.I/O操作优化 1)数据倾斜 2)Map运行时间太长,导致Reduce等待过久 3)小文件过多 二、MapReduce常用调优参数 #1.自定义分区,减少数据倾斜; 定义 阅读全文
posted @ 2021-09-10 17:18 年少纵马且长歌 阅读(122) 评论(0) 推荐(0)
摘要:一、 Apache和Apache集群间数据拷贝 #1.scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/delopy/hello.txt // 推 push scp -r root@hadoop103:/user/delopy/hell 阅读全文
posted @ 2021-09-10 16:08 年少纵马且长歌 阅读(180) 评论(0) 推荐(0)
摘要:一、NameNode故障处理 1.需求 NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 2.故障模拟 #1.kill -9 NameNode进程 [delopy@hadoop102 current]$ kill -9 19886 #2.删除NameNode存储的数据(/op 阅读全文
posted @ 2021-09-09 12:18 年少纵马且长歌 阅读(290) 评论(0) 推荐(0)
摘要:注:演示纠删码和异构存储需要一共5台服务器。尽量拿另外一套集群。提前准备5台服务器的集群。 一、纠删码基本概述 1.纠删码原理 HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间 2 阅读全文
posted @ 2021-09-09 12:14 年少纵马且长歌 阅读(326) 评论(0) 推荐(0)
摘要:一、添加白名单 1.概述 白名单:表示在白名单的主机IP地址可以,用来存储数据。 企业中:配置白名单,可以尽量防止黑客恶意访问攻击。 2.具体配置 #1.在NameNode节点的/opt/module/hadoop/etc/hadoop目录下分别创建whitelist和blacklist文件 1)创 阅读全文
posted @ 2021-09-09 12:04 年少纵马且长歌 阅读(178) 评论(0) 推荐(0)
摘要:一、NameNode多目录配置 1.概述 # NameNode的本地目录可以配置成多个,且每个目录存放内容相同,增加了可靠性 2.具体配置 #1.在hdfs-site.xml文件中添加如下内容 <property> <name>dfs.namenode.name.dir</name> <value> 阅读全文
posted @ 2021-09-09 11:43 年少纵马且长歌 阅读(122) 评论(0) 推荐(0)
摘要:一、压测准备 在企业中非常关心每天从Java后台拉取过来的数据,需要多久能上传到集群?消费者关心多久能从HDFS上拉取需要的数据? 为了搞清楚HDFS的读写性能,生产环境上非常需要对集群进行压测。 HDFS的读写性能主要受网络和磁盘影响比较大。为了方便测试,将hadoop102、hadoop103、 阅读全文
posted @ 2021-09-09 11:40 年少纵马且长歌 阅读(198) 评论(0) 推荐(0)
摘要:一、NameNode内存生产配置 #1.NameNode内存计算 每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢? 128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1亿 G MB KB Byte #2.Hadoop2.x系列,配置Nam 阅读全文
posted @ 2021-09-08 15:10 年少纵马且长歌 阅读(321) 评论(0) 推荐(0)
摘要:一、 Yarn生产环境核心参数配置案例 #1.需求: 从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 #2.需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个 阅读全文
posted @ 2021-09-08 11:25 年少纵马且长歌 阅读(455) 评论(0) 推荐(0)
摘要:一、YARN概述 思考: 1)如何管理集群资源? 2)如何给任务合理分配资源? Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 二、YARN基础架构 YARN主要由ResourceMa 阅读全文
posted @ 2021-09-08 11:20 年少纵马且长歌 阅读(314) 评论(0) 推荐(0)
摘要:一、概述 #1.压缩的好处和坏处 压缩的优点:以减少磁盘IO、减少磁盘存储空间。 压缩的缺点:增加CPU开销。 #2.压缩原则 1)运算密集型的Job,少用压缩 2)IO密集型的Job,多用压缩 二、MR支持的压缩编码 1.压缩算法对比介绍 压缩格式 Hadoop自带? 算法 文件扩展名 是否可切片 阅读全文
posted @ 2021-09-07 15:33 年少纵马且长歌 阅读(174) 评论(0) 推荐(0)
摘要:一、序列化含义 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。 二、序列化的背景 一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对 阅读全文
posted @ 2021-09-06 17:37 年少纵马且长歌 阅读(77) 评论(0) 推荐(0)
摘要:一、MapReduce基本含义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 二、MapReduce优缺 阅读全文
posted @ 2021-09-06 16:51 年少纵马且长歌 阅读(210) 评论(0) 推荐(0)
摘要:一、 NN和2NN工作机制 思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生 阅读全文
posted @ 2021-09-06 14:30 年少纵马且长歌 阅读(184) 评论(0) 推荐(0)
摘要:一、HDFS写数据流程 #1.客户端通过Distributed File System模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 #2.NameNode返回是否可以上传。 #3.客户端请求第一个 Block上传到哪几个DataNode服务器上。 #4 阅读全文
posted @ 2021-09-06 14:13 年少纵马且长歌 阅读(140) 评论(0) 推荐(0)
摘要:一、客户端环境准备 #1.下载Hadoop到Windows路径下的依赖文件夹,拷贝hadoop-3.1.0到非中文路径(比如d:\)。 #2.配置HADOOP_HOME环境变量 #3.配置Path环境变量。 注意:如果环境变量不起作用,可以重启电脑试试。 #4.验证Hadoop环境变量是否正常。双击 阅读全文
posted @ 2021-09-03 17:56 年少纵马且长歌 阅读(178) 评论(0) 推荐(0)
摘要:一、基本语法 # hadoop fs 具体命令 或者 # hdfs dfs 具体命令 两个是完全相同的。 二、命令大全 [delopy@hadoop102 ~]$ hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <s 阅读全文
posted @ 2021-09-03 16:39 年少纵马且长歌 阅读(100) 评论(0) 推荐(0)
摘要:一、HDFS产生的背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 二、HDFS的定义 HDFS(Hadoop Distr 阅读全文
posted @ 2021-09-03 12:22 年少纵马且长歌 阅读(89) 评论(0) 推荐(0)