随笔分类 -  Spark

摘要:1、spark是通用大数据处理框架。 2、spark快的原因,内存计算,支持有向无环图DAG,减少迭代过程中的数据落地。 3、SparkSQL: 引入新的RDD类型SchemaRDD,可以像传统数据库定义表一样定义SchemaRDD。 内存列存储:SparkSQL的表数据在内存中存储不是采用原生态的 阅读全文
posted @ 2018-05-07 09:18 海东青Lo 阅读(705) 评论(0) 推荐(0)
摘要:1、原因 业务数据本身的特性 key分布不均匀 建表时考虑不周 某些SQL语句本身就有数据倾斜 2、设计思路 假如只有一个key数据倾斜,首先对表A进行采样,统计出最倾斜的key。将A表分为A1只有倾斜key,A2不包含倾斜key,然后分别与B链接。 阅读全文
posted @ 2018-02-07 10:42 海东青Lo 阅读(127) 评论(0) 推荐(0)
摘要:1、application driver program 运行application的main 并创建sparkContext。 一个RDD Graph=一个job 一个job根据RDD的宽依赖关系被分为很多stage。每个stage中包含一组相同的task,称为taskset。 一个分区对应一个t 阅读全文
posted @ 2018-01-18 16:19 海东青Lo 阅读(105) 评论(0) 推荐(0)