Hadoop生态技术 - 随笔分类 - 北冥_之鱼

HDFS的写数据流程

摘要：一正常的写数据流程源码注释： * DFSOutputStream creates files from a stream of bytes. * * The client application writes data that is cached internally by * this st 阅读全文

posted @ 2020-11-10 10:53 北冥_之鱼阅读(145) 评论(0) 推荐(0)

Hbase中 Rowkey设计时需要遵循三大原则：

摘要：Rowkey设计时需要遵循三大原则： 1. 唯一性原则 rowkey在设计上保证其唯一性。rowkey是按照字典顺序排序存储的，因此，设计rowkey的时候，要充分利用这个排序的特点，将经常读取的数据存储到一块，将最近可能会被访问的数据放到一块。 2. 长度原则 rowkey是一个二进制码流，可以是阅读全文

posted @ 2020-11-08 16:20 北冥_之鱼阅读(607) 评论(0) 推荐(0)

hadoop解决数据倾斜方法

摘要：1）提请在map端进行combiner,减少传入的数据量在mapper加上combiner相当于提前进行reduce，即把一个Mappper中的相同key进行了聚合，减少shuffle过程中传输数据量，以及reducer端的计算量。【注意：map端的提前聚合不能影响最终的结果，eg:求平均值的就不阅读全文

posted @ 2020-11-07 09:39 北冥_之鱼阅读(173) 评论(0) 推荐(0)

hdfs中的小文件影响以及处理办法

摘要：小文件影响：存储小文件时会降低NN的服务能力，NameNode的资源是非常宝贵的。解决方法： ①采用har 归档，将小文件归档。 ②采用CombineTextInputFormat ③开启jvm重用阅读全文

posted @ 2020-11-05 00:29 北冥_之鱼阅读(431) 评论(0) 推荐(0)

代码工匠

随笔分类 - Hadoop生态技术

公告