// // // //

2019年12月4日

摘要: 在 sql 语言中,where 表示的是过滤,这部分语句被 sql 层解析后,在数据库内部以谓词的形式出现; 在 sparkSQL 中,如果出现 where,它会现在数据库层面进行过滤,一般数据库会有索引,效率不会太低, sparkSQL 只读取过滤后的数据,大大减少数据量,提高效率,特别是提高 j 阅读全文
posted @ 2019-12-04 17:06 努力的孔子 阅读(907) 评论(0) 推荐(1)
 
摘要: sparkSQL 也允许用户自定义函数,包括 UDF、UDAF,但没有 UDTF 官方 API class pyspark.sql.UDFRegistration(sparkSession)[source] register(name, f, returnType=None)[source] Reg 阅读全文
posted @ 2019-12-04 16:54 努力的孔子 阅读(1241) 评论(0) 推荐(0)
 
摘要: spark 有三大引擎,spark core、sparkSQL、sparkStreaming, spark core 的关键抽象是 SparkContext、RDD; SparkSQL 的关键抽象是 SparkSession、DataFrame; sparkStreaming 的关键抽象是 Stre 阅读全文
posted @ 2019-12-04 14:29 努力的孔子 阅读(28920) 评论(0) 推荐(1)