摘要:
一、Hadoop小文件优化方法 1.Hadoop小文件弊端 HDFS上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢 阅读全文
posted @ 2021-09-10 17:20
年少纵马且长歌
阅读(124)
评论(0)
推荐(0)
摘要:
一、Resourcemanager相关 yarn.resourcemanager.scheduler.client.thread-count ResourceManager处理调度器请求的线程数量 yarn.resourcemanager.scheduler.class 配置调度器 二、Nodema 阅读全文
posted @ 2021-09-10 17:19
年少纵马且长歌
阅读(116)
评论(0)
推荐(0)
摘要:
一、MapReduce跑的慢的原因 MapReduce程序效率的瓶颈在于两点: #1.计算机性能 CPU、内存、磁盘、网络 #2.I/O操作优化 1)数据倾斜 2)Map运行时间太长,导致Reduce等待过久 3)小文件过多 二、MapReduce常用调优参数 #1.自定义分区,减少数据倾斜; 定义 阅读全文
posted @ 2021-09-10 17:18
年少纵马且长歌
阅读(96)
评论(0)
推荐(0)
摘要:
一、 Apache和Apache集群间数据拷贝 #1.scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/delopy/hello.txt // 推 push scp -r root@hadoop103:/user/delopy/hell 阅读全文
posted @ 2021-09-10 16:08
年少纵马且长歌
阅读(152)
评论(0)
推荐(0)