随笔分类 - Spark
摘要:1、spark是通用大数据处理框架。 2、spark快的原因,内存计算,支持有向无环图DAG,减少迭代过程中的数据落地。 3、SparkSQL: 引入新的RDD类型SchemaRDD,可以像传统数据库定义表一样定义SchemaRDD。 内存列存储:SparkSQL的表数据在内存中存储不是采用原生态的
阅读全文
摘要:1、原因 业务数据本身的特性 key分布不均匀 建表时考虑不周 某些SQL语句本身就有数据倾斜 2、设计思路 假如只有一个key数据倾斜,首先对表A进行采样,统计出最倾斜的key。将A表分为A1只有倾斜key,A2不包含倾斜key,然后分别与B链接。
阅读全文
摘要:1、application driver program 运行application的main 并创建sparkContext。 一个RDD Graph=一个job 一个job根据RDD的宽依赖关系被分为很多stage。每个stage中包含一组相同的task,称为taskset。 一个分区对应一个t
阅读全文

浙公网安备 33010602011771号