随笔档案「2021年9月10日」：第二十九章 Hadoop综合调优 ... - 年少纵马且长歌

2021年9月10日

摘要：一、Hadoop小文件优化方法 1.Hadoop小文件弊端 HDFS上每个文件都要在NameNode上创建对应的元数据，这个元数据的大小约为150byte，这样当小文件比较多的时候，就会产生很多的元数据文件，一方面会大量占用NameNode的内存空间，另一方面就是元数据文件过多，使得寻址索引速度变慢阅读全文

posted @ 2021-09-10 17:20 年少纵马且长歌阅读(138) 评论(0) 推荐(0)

第二十八章 Hadoop-Yarn生产经验

摘要：一、Resourcemanager相关 yarn.resourcemanager.scheduler.client.thread-count ResourceManager处理调度器请求的线程数量 yarn.resourcemanager.scheduler.class 配置调度器二、Nodema 阅读全文

posted @ 2021-09-10 17:19 年少纵马且长歌阅读(120) 评论(0) 推荐(0)

第二十七章 MapReduce生产经验

摘要：一、MapReduce跑的慢的原因 MapReduce程序效率的瓶颈在于两点： #1.计算机性能 CPU、内存、磁盘、网络 #2.I/O操作优化 1）数据倾斜 2）Map运行时间太长，导致Reduce等待过久 3）小文件过多二、MapReduce常用调优参数 #1.自定义分区，减少数据倾斜; 定义阅读全文

posted @ 2021-09-10 17:18 年少纵马且长歌阅读(113) 评论(0) 推荐(0)

第二十六章 HDFS—集群迁移

摘要：一、 Apache和Apache集群间数据拷贝 #1.scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/delopy/hello.txt // 推 push scp -r root@hadoop103:/user/delopy/hell 阅读全文

posted @ 2021-09-10 16:08 年少纵马且长歌阅读(171) 评论(0) 推荐(0)

青青子衿悠悠我心

当你的才华还撑不起你的野心的时候，你就应该静下心来学习

公告