Hadoop深究 - 随笔分类 - 年少纵马且长歌

第二十九章 Hadoop综合调优

摘要：一、Hadoop小文件优化方法 1.Hadoop小文件弊端 HDFS上每个文件都要在NameNode上创建对应的元数据，这个元数据的大小约为150byte，这样当小文件比较多的时候，就会产生很多的元数据文件，一方面会大量占用NameNode的内存空间，另一方面就是元数据文件过多，使得寻址索引速度变慢阅读全文

posted @ 2021-09-10 17:20 年少纵马且长歌阅读(146) 评论(0) 推荐(0)

第二十八章 Hadoop-Yarn生产经验

摘要：一、Resourcemanager相关 yarn.resourcemanager.scheduler.client.thread-count ResourceManager处理调度器请求的线程数量 yarn.resourcemanager.scheduler.class 配置调度器二、Nodema 阅读全文

posted @ 2021-09-10 17:19 年少纵马且长歌阅读(122) 评论(0) 推荐(0)

第二十七章 MapReduce生产经验

摘要：一、MapReduce跑的慢的原因 MapReduce程序效率的瓶颈在于两点： #1.计算机性能 CPU、内存、磁盘、网络 #2.I/O操作优化 1）数据倾斜 2）Map运行时间太长，导致Reduce等待过久 3）小文件过多二、MapReduce常用调优参数 #1.自定义分区，减少数据倾斜; 定义阅读全文

posted @ 2021-09-10 17:18 年少纵马且长歌阅读(122) 评论(0) 推荐(0)

第二十六章 HDFS—集群迁移

摘要：一、 Apache和Apache集群间数据拷贝 #1.scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/delopy/hello.txt // 推 push scp -r root@hadoop103:/user/delopy/hell 阅读全文

posted @ 2021-09-10 16:08 年少纵马且长歌阅读(180) 评论(0) 推荐(0)

第二十五章 HDFS—故障排除

摘要：一、NameNode故障处理 1.需求 NameNode进程挂了并且存储的数据也丢失了，如何恢复NameNode 2.故障模拟 #1.kill -9 NameNode进程 [delopy@hadoop102 current]$ kill -9 19886 #2.删除NameNode存储的数据（/op 阅读全文

posted @ 2021-09-09 12:18 年少纵马且长歌阅读(290) 评论(0) 推荐(0)

第二十四章 HDFS—存储优化

摘要：注：演示纠删码和异构存储需要一共5台服务器。尽量拿另外一套集群。提前准备5台服务器的集群。一、纠删码基本概述 1.纠删码原理 HDFS默认情况下，一个文件有3个副本，这样提高了数据的可靠性，但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码，采用计算的方式，可以节省约50％左右的存储空间 2 阅读全文

posted @ 2021-09-09 12:14 年少纵马且长歌阅读(326) 评论(0) 推荐(0)

第二十三章 HDFS—集群扩容及缩容

摘要：一、添加白名单 1.概述白名单：表示在白名单的主机IP地址可以，用来存储数据。企业中：配置白名单，可以尽量防止黑客恶意访问攻击。 2.具体配置 #1.在NameNode节点的/opt/module/hadoop/etc/hadoop目录下分别创建whitelist和blacklist文件 1）创阅读全文

posted @ 2021-09-09 12:04 年少纵马且长歌阅读(178) 评论(0) 推荐(0)

第二十二章 HDFS—多目录

摘要：一、NameNode多目录配置 1.概述 # NameNode的本地目录可以配置成多个，且每个目录存放内容相同，增加了可靠性 2.具体配置 #1.在hdfs-site.xml文件中添加如下内容 <property> <name>dfs.namenode.name.dir</name> <value> 阅读全文

posted @ 2021-09-09 11:43 年少纵马且长歌阅读(122) 评论(0) 推荐(0)

第二十一章 HDFS—集群压测

摘要：一、压测准备在企业中非常关心每天从Java后台拉取过来的数据，需要多久能上传到集群？消费者关心多久能从HDFS上拉取需要的数据？为了搞清楚HDFS的读写性能，生产环境上非常需要对集群进行压测。 HDFS的读写性能主要受网络和磁盘影响比较大。为了方便测试，将hadoop102、hadoop103、阅读全文

posted @ 2021-09-09 11:40 年少纵马且长歌阅读(198) 评论(0) 推荐(0)

第二十章 HDFS—核心参数调优

摘要：一、NameNode内存生产配置 #1.NameNode内存计算每个文件块大概占用150byte，一台服务器128G内存为例，能存储多少文件块呢？ 128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1亿 G MB KB Byte #2.Hadoop2.x系列，配置Nam 阅读全文

posted @ 2021-09-08 15:10 年少纵马且长歌阅读(321) 评论(0) 推荐(0)

第十九章 Yarn案例实操

摘要：一、 Yarn生产环境核心参数配置案例 #1.需求：从1G数据中，统计每个单词出现次数。服务器3台，每台配置4G内存，4核CPU，4线程。 #2.需求分析： 1G / 128m = 8个MapTask；1个ReduceTask；1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个阅读全文

posted @ 2021-09-08 11:25 年少纵马且长歌阅读(455) 评论(0) 推荐(0)

第十八章 Yarn资源调度器

摘要：一、YARN概述思考： 1）如何管理集群资源？ 2）如何给任务合理分配资源？ Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。二、YARN基础架构 YARN主要由ResourceMa 阅读全文

posted @ 2021-09-08 11:20 年少纵马且长歌阅读(314) 评论(0) 推荐(0)

第十七章 Hadoop数据压缩

摘要：一、概述 #1.压缩的好处和坏处压缩的优点：以减少磁盘IO、减少磁盘存储空间。压缩的缺点：增加CPU开销。 #2.压缩原则 1）运算密集型的Job，少用压缩 2）IO密集型的Job，多用压缩二、MR支持的压缩编码 1.压缩算法对比介绍压缩格式 Hadoop自带？算法文件扩展名是否可切片阅读全文

posted @ 2021-09-07 15:33 年少纵马且长歌阅读(174) 评论(0) 推荐(0)

第十五章 Hadoop序列化

摘要：一、序列化含义序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。二、序列化的背景一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对阅读全文

posted @ 2021-09-06 17:37 年少纵马且长歌阅读(77) 评论(0) 推荐(0)

第十四章 MapReduce概述

摘要：一、MapReduce基本含义 MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。二、MapReduce优缺阅读全文

posted @ 2021-09-06 16:51 年少纵马且长歌阅读(210) 评论(0) 推荐(0)

第十三章 HDFS各组件机制

摘要：一、 NN和2NN工作机制思考：NameNode中的元数据是存储在哪里的？首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生阅读全文

posted @ 2021-09-06 14:30 年少纵马且长歌阅读(184) 评论(0) 推荐(0)

第十二章 HDFS的读写流程

摘要：一、HDFS写数据流程 #1.客户端通过Distributed File System模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。 #2.NameNode返回是否可以上传。 #3.客户端请求第一个 Block上传到哪几个DataNode服务器上。 #4 阅读全文

posted @ 2021-09-06 14:13 年少纵马且长歌阅读(140) 评论(0) 推荐(0)

第十一章 HDFS的API操作

摘要：一、客户端环境准备 #1.下载Hadoop到Windows路径下的依赖文件夹，拷贝hadoop-3.1.0到非中文路径（比如d:\）。 #2.配置HADOOP_HOME环境变量 #3.配置Path环境变量。注意：如果环境变量不起作用，可以重启电脑试试。 #4.验证Hadoop环境变量是否正常。双击阅读全文

posted @ 2021-09-03 17:56 年少纵马且长歌阅读(178) 评论(0) 推荐(0)

第十章 HDFS的Shell操作

摘要：一、基本语法 # hadoop fs 具体命令或者 # hdfs dfs 具体命令两个是完全相同的。二、命令大全 [delopy@hadoop102 ~]$ hadoop fs [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <s 阅读全文

posted @ 2021-09-03 16:39 年少纵马且长歌阅读(100) 评论(0) 推荐(0)

第九章 HDFS概述

摘要：一、HDFS产生的背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。二、HDFS的定义 HDFS（Hadoop Distr 阅读全文

posted @ 2021-09-03 12:22 年少纵马且长歌阅读(89) 评论(0) 推荐(0)

青青子衿悠悠我心

当你的才华还撑不起你的野心的时候，你就应该静下心来学习

随笔分类 - Hadoop深究

公告