第7天:Spark SQL 学习目标:掌握Spark SQL和DataFrame的使用。 具体内容:
DataFrame的创建(从RDD、从文件、从数据库)。
DataFrame的常用操作:选择列、过滤、分组聚合。
使用SQL查询DataFrame(创建临时视图,使用Spark SQL)。
练习:读取一个JSON文件创建DataFrame,进行查询(选择特定列,按条件过滤,分组统计)。
任务:
将DataFrame保存为Parquet格式,并重新读取。