摘要: 一、源码分析1、###入口org.apache.spark.sql/SQLContext.scalasql()方法:/** * 使用Spark执行一条SQL查询语句,将结果作为DataFrame返回,SQL解析使用的方言,可以 * 通过spark.sql.dialect参数,来进行设置 */ def sql(sqlText: String): DataFrame = { ... 阅读全文
posted @ 2019-08-07 14:36 米兰的小铁將 阅读(1092) 评论(0) 推荐(0)
摘要: 一、工作原理剖析1、图解二、性能优化1、设置Shuffle过程中的并行度:spark.sql.shuffle.partitions(SQLContext.setConf())2、在Hive数据仓库建设过程中,合理设置数据类型,比如能设置为INT的,就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。3、编写SQL时,尽量给出明确的列名,比如select name from student... 阅读全文
posted @ 2019-08-07 09:34 米兰的小铁將 阅读(1549) 评论(0) 推荐(0)