Spark - 随笔分类 - 海东青Lo

spark及其生态系统

摘要：1、spark是通用大数据处理框架。 2、spark快的原因，内存计算，支持有向无环图DAG，减少迭代过程中的数据落地。 3、SparkSQL：引入新的RDD类型SchemaRDD，可以像传统数据库定义表一样定义SchemaRDD。内存列存储：SparkSQL的表数据在内存中存储不是采用原生态的阅读全文

posted @ 2018-05-07 09:18 海东青Lo 阅读(706) 评论(0) 推荐(0)

数据倾斜

摘要：1、原因业务数据本身的特性 key分布不均匀建表时考虑不周某些SQL语句本身就有数据倾斜 2、设计思路假如只有一个key数据倾斜，首先对表A进行采样，统计出最倾斜的key。将A表分为A1只有倾斜key，A2不包含倾斜key，然后分别与B链接。阅读全文

posted @ 2018-02-07 10:42 海东青Lo 阅读(128) 评论(0) 推荐(0)

spark应用的概念

摘要：1、application driver program 运行application的main 并创建sparkContext。一个RDD Graph=一个job 一个job根据RDD的宽依赖关系被分为很多stage。每个stage中包含一组相同的task,称为taskset。一个分区对应一个t 阅读全文

posted @ 2018-01-18 16:19 海东青Lo 阅读(105) 评论(0) 推荐(0)

海东青Lo

随笔分类 - Spark

公告