Hadoop - 随笔分类 - 海飏凨

HDFS常问面试题

摘要：1.读写流程 2.默认块大小集群模式：128m 本地模式：32m hadoop1.x：64m 业务开发：128m 256m hive的文件块：256m 3.小文件 namenode 内存128g 一个文件块占用namenode 150字节 128*1024*1024*1024字节/150字节=9亿阅读全文

posted @ 2021-08-18 15:32 海飏凨阅读(140) 评论(0) 推荐(0)

HDFS产生小文件解决

摘要：使用flume将数据写到HDFS上，出现大量的不到1kb的小文件。危害：占用NameNode内存 n*150字节（采用har归档：hadoop archive -archiveName **.har -p /输入路径 /输出路径）增加切片个数 n个maptask 产生原因： hdfs.roll 阅读全文

posted @ 2021-08-18 15:32 海飏凨阅读(469) 评论(0) 推荐(0)

MapReduce的shuffle及优化

摘要：shuffle发生在map方法之后，reduce方法之前优化：由环形缓冲区默认的100m调到200m，将默认的80%的反向溢出调整到90%。这样就会减少溢写的次数对溢写的文件提前进行combiner,保证不影响最终逻辑前提，也可以调高combiner文件个数。可求和不可求均值。归并后存储磁盘阅读全文

posted @ 2021-08-13 15:51 海飏凨阅读(168) 评论(0) 推荐(0)

HDFS运作原理

摘要：HDFS:分布式文件系统，适合一次写入，多次读出场景，不适合文件的修改。 HDFS由NN、DN、Secondary NameNode、Client组成。 NN(NameNode) ：管理HDFS的名称空间、配置副本策略、管理数据块（Block）的映射信息、处理客户端读写请求； DN(DataNode 阅读全文

posted @ 2021-08-13 15:50 海飏凨阅读(195) 评论(0) 推荐(1)

山野万里，你是我藏在微风中的欢喜 ----致我的最爱，希妍

Always on the way to you

随笔分类 - Hadoop

公告