摘要: 客户端读取信息流程 (1)client要读取信息,先查询下client 端的cache中是否存在数据,如果存在,刚直接返回数据。如果不存在,则进入到zookeeper,查找到里面的相应数据存在的Root表中的地址。 (2)BlockCache;设计用于读入内存频繁访问的数据,每个列族都有 (3)通过数据存在ROOT表中地址找到.META,最终找到HRegion。找到HRegio... 阅读全文
posted @ 2018-02-13 16:34 Alamps 阅读(391) 评论(0) 推荐(0) 编辑
摘要: 调优手段 (1)利用列裁剪 当待查询的表字段较多时,选取需要使用的字段进行查询,避免直接select *出大表的所有字段,以免当使用Beeline查询时控制台输出缓冲区被大数据量撑爆。 (2)JOIN避免笛卡尔积 JOIN场景应严格避免出现笛卡尔积的情况。参与笛卡尔积JOIN的两个表,交叉关联后的数据条数是两个原表记录数之积,对于JOIN后还有聚合的场景而言,会导致reduce端处理的数... 阅读全文
posted @ 2018-02-13 16:21 Alamps 阅读(4427) 评论(1) 推荐(2) 编辑