随笔分类 -  Hadoop生态技术

摘要:一 正常的写数据流程 源码注释: * DFSOutputStream creates files from a stream of bytes. * * The client application writes data that is cached internally by * this st 阅读全文
posted @ 2020-11-10 10:53 北冥_之鱼 阅读(139) 评论(0) 推荐(0)
摘要:Rowkey设计时需要遵循三大原则: 1. 唯一性原则 rowkey在设计上保证其唯一性。rowkey是按照字典顺序排序存储的,因此,设计rowkey的时候,要充分利用这个排序的特点,将经常读取的数据存储到一块,将最近可能会被访问的数据放到一块。 2. 长度原则 rowkey是一个二进制码流,可以是 阅读全文
posted @ 2020-11-08 16:20 北冥_之鱼 阅读(605) 评论(0) 推荐(0)
摘要:1)提请在map端进行combiner,减少传入的数据量 在mapper加上combiner相当于提前进行reduce,即把一个Mappper中的相同key进行了聚合,减少shuffle过程中传输数据量,以及reducer端的计算量。【注意:map端的提前聚合不能影响最终的结果,eg:求平均值的就不 阅读全文
posted @ 2020-11-07 09:39 北冥_之鱼 阅读(166) 评论(0) 推荐(0)
摘要:小文件影响: 存储小文件时会降低NN的服务能力,NameNode的资源是非常宝贵的。 解决方法: ①采用har 归档,将小文件归档。 ②采用CombineTextInputFormat ③开启jvm重用 阅读全文
posted @ 2020-11-05 00:29 北冥_之鱼 阅读(425) 评论(0) 推荐(0)