7.Spark SQL

一. 分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。

二. 简述RDD 和DataFrame的联系与区别。

三. DataFrame的创建与保存:

DataFrame的保存
- df.write.text(dir)
- df.write.json(dri)
- df.write.format("text").save(dir)
- df.write.format("json").save(dir)

四. PySpark-DataFrame各种常用操作

基于spark.sql的操作
- 创建临时表 df.registerTempTable('people')
- spark.sql执行SQL语句 spark.sql('select name from people').show()

五 Pyspark中DataFrame与pandas中DataFrame

六从RDD转换得到DataFrame

利用反射机制推断RDD模式
- 创建RDD sc.textFile(url).map()，读文件，分割数据项
- 每个RDD元素转换成 Row
- 由Row-RDD转换到DataFrame

posted @ 2022-05-07 11:19 叶文茂阅读(40) 评论(0) 收藏举报

刷新页面返回顶部