随笔分类 - Spark SQL
-
Spark SQL inferSchema实现原理探微(Python)
摘要:使用Spark SQL的基础是“注册”(Register)若干表,表的一个重要组成部分就是模式,Spark SQL提供两种选项供用户选择:(1)applySchemaapplySchema的方式需要用户编码显示指定模式,优点:数据类型明确,缺点:多表时有一定的代码工作量。(2)inferSchema... 阅读全文
-
Spark(Hive) SQL数据类型使用详解(Python)
摘要:Spark SQL使用时需要有若干“表”的存在,这些“表”可以来自于Hive,也可以来自“临时表”。如果“表”来自于Hive,它的模式(列名、列类型等)在创建时已经确定,一般情况下我们直接通过Spark SQL分析表中的数据即可;如果“表”来自“临时表”,我们就需要考虑两个问题:(1)“临时表”的数... 阅读全文
-
Spark SQL Table Join(Python)
摘要:示例Spark SQL注册“临时表”执行“Join”(Inner Join、Left Outer Join、Right Outer Join、Full Outer Join)代码from pyspark import SparkConf, SparkContextfrom pyspark.sql i... 阅读全文