2020 年 1月 15 日随笔档案 - ~清风煮酒~

2020年1月15日

摘要： 1 Hbase特点容量大：Hbase单表可以有百亿行、百万列,数据矩阵横向和纵向两个纬度所支持的数据量级都非常具有弹性。面向列：Hbase是面向列的存储和权限控制,并支持独立检索。列式存储,其数据在表中是按照某列存储的,这样在查询只需要少数几个字段的时候,能大大减少读取的数据量。多版本： H 阅读全文

posted @ 2020-01-15 18:45 ~清风煮酒~ 阅读(184) 评论(0) 推荐(0)

scala_spark积压解决

摘要：案例1 到源码中查看，发现读取HBase数据时使用了重分区算子。原本Spark在使用RDD模式拉取HBase数据时，会根据资源分配平均地拉取数据到各个节点。但是这里使用了重分区，导致各节点拉取到数据之后，根据resultMap这个对象的Hash值进行了shuffle，导致了数据倾斜。将重分区算子阅读全文

posted @ 2020-01-15 11:10 ~清风煮酒~ 阅读(42) 评论(0) 推荐(0)

Scala——的并行集合

摘要：当出现Kafka单个分区数据量很大，但每个分区的数据量很平均的情况时，我们往往采用下面两种方案增加并行度： l 增加Kafka分区数量 l 对拉取过来的数据执行repartition 但是针对这种情况，前者的改动直接影响所有使用消费队列的模型性能，后者则存在一个shuffle的性能消耗。有没有既不会阅读全文

posted @ 2020-01-15 10:56 ~清风煮酒~ 阅读(873) 评论(0) 推荐(0)

狂奔小蜗牛

公告