摘要: 一、Hadoop小文件优化方法 1.Hadoop小文件弊端 HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢 阅读全文
posted @ 2021-09-10 17:20 年少纵马且长歌 阅读(124) 评论(0) 推荐(0)
摘要: 一、Resourcemanager相关 yarn.resourcemanager.scheduler.client.thread-count ResourceManager处理调度器请求的线程数量 yarn.resourcemanager.scheduler.class 配置调度器 二、Nodema 阅读全文
posted @ 2021-09-10 17:19 年少纵马且长歌 阅读(116) 评论(0) 推荐(0)
摘要: 一、MapReduce跑的慢的原因 MapReduce程序效率的瓶颈在于两点: #1.计算机性能 CPU、内存、磁盘、网络 #2.I/O操作优化 1)数据倾斜 2)Map运行时间太长,导致Reduce等待过久 3)小文件过多 二、MapReduce常用调优参数 #1.自定义分区,减少数据倾斜; 定义 阅读全文
posted @ 2021-09-10 17:18 年少纵马且长歌 阅读(96) 评论(0) 推荐(0)
摘要: 一、 Apache和Apache集群间数据拷贝 #1.scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/delopy/hello.txt // 推 push scp -r root@hadoop103:/user/delopy/hell 阅读全文
posted @ 2021-09-10 16:08 年少纵马且长歌 阅读(152) 评论(0) 推荐(0)