摘要: 1 Hbase特点 容量大:Hbase单表可以有百亿行、百万列,数据矩阵横向和纵向两个纬度所支持的数据量级都非常具有弹性。 面向列 :Hbase是面向列的存储和权限控制,并支持独立检索。列式存储,其数据在表中是按照某列存储的,这样在查询只需要少数几个字段的时候,能大大减少读取的数据量。 多版本: H 阅读全文
posted @ 2020-01-15 18:45 ~清风煮酒~ 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 案例1 到源码中查看,发现读取HBase数据时使用了重分区算子。 原本Spark在使用RDD模式拉取HBase数据时,会根据资源分配平均地拉取数据到各个节点。但是这里使用了重分区,导致各节点拉取到数据之后,根据resultMap这个对象的Hash值进行了shuffle,导致了数据倾斜。 将重分区算子 阅读全文
posted @ 2020-01-15 11:10 ~清风煮酒~ 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 当出现Kafka单个分区数据量很大,但每个分区的数据量很平均的情况时,我们往往采用下面两种方案增加并行度: l 增加Kafka分区数量 l 对拉取过来的数据执行repartition 但是针对这种情况,前者的改动直接影响所有使用消费队列的模型性能,后者则存在一个shuffle的性能消耗。有没有既不会 阅读全文
posted @ 2020-01-15 10:56 ~清风煮酒~ 阅读(838) 评论(0) 推荐(0) 编辑