2019 年 8月 7 日随笔档案 - 米兰的小铁將

2019年8月7日

47、Spark SQL核心源码深度剖析(DataFrame lazy特性、Optimizer优化策略等)

摘要：一、源码分析1、###入口org.apache.spark.sql/SQLContext.scalasql()方法：/** * 使用Spark执行一条SQL查询语句，将结果作为DataFrame返回，SQL解析使用的方言，可以 * 通过spark.sql.dialect参数，来进行设置 */ def sql(sqlText: String): DataFrame = { ... 阅读全文

posted @ 2019-08-07 14:36 米兰的小铁將阅读(1092) 评论(0) 推荐(0)

46、Spark SQL工作原理剖析以及性能优化

摘要：一、工作原理剖析1、图解二、性能优化1、设置Shuffle过程中的并行度：spark.sql.shuffle.partitions(SQLContext.setConf())2、在Hive数据仓库建设过程中，合理设置数据类型，比如能设置为INT的，就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。3、编写SQL时，尽量给出明确的列名，比如select name from student... 阅读全文

posted @ 2019-08-07 09:34 米兰的小铁將阅读(1549) 评论(0) 推荐(0)

米兰的小铁將

公告