04 2022 档案

摘要:1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、Dat 阅读全文
posted @ 2022-04-27 10:03 Ls1ion 阅读(102) 评论(0) 推荐(0)
摘要:三、学生课程分数 持久化 stu.cache() 总共有多少学生?map(), distinct(), count() 开设了多少门课程? 生成(姓名,课程分数)键值对RDD,观察keys(),values() 每个学生选修了多少门课?map(), countByKey() 每门课程有多少个学生选? 阅读全文
posted @ 2022-04-06 14:50 Ls1ion 阅读(92) 评论(0) 推荐(0)