随笔分类 - Hadoop
Hadoop的生态体系
摘要:1.读写流程 2.默认块大小 集群模式:128m 本地模式:32m hadoop1.x:64m 业务开发:128m 256m hive的文件块:256m 3.小文件 namenode 内存128g 一个文件块占用namenode 150字节 128*1024*1024*1024字节/150字节=9亿
阅读全文
摘要:使用flume将数据写到HDFS上,出现大量的不到1kb的小文件。 危害:占用NameNode内存 n*150字节 (采用har归档:hadoop archive -archiveName **.har -p /输入路径 /输出路径) 增加切片个数 n个maptask 产生原因: hdfs.roll
阅读全文
摘要:shuffle发生在map方法之后,reduce方法之前 优化:由环形缓冲区默认的100m调到200m,将默认的80%的反向溢出调整到90%。 这样就会减少溢写的次数 对溢写的文件提前进行combiner,保证不影响最终逻辑前提,也可以调高combiner文件个数。可求和不可求均值。 归并后存储磁盘
阅读全文
摘要:HDFS:分布式文件系统,适合一次写入,多次读出场景,不适合文件的修改。 HDFS由NN、DN、Secondary NameNode、Client组成。 NN(NameNode) :管理HDFS的名称空间、配置副本策略、管理数据块(Block)的映射信息、处理客户端读写请求; DN(DataNode
阅读全文

浙公网安备 33010602011771号