江湖神经

导航

8. SparkSQL综合作业

7.Spark SQL

5. Pyspark中DataFrame与pandas中DataFrame

分别从文件创建DataFrame

比较两者的异同

pandas中DataFrame转换为Pyspark中DataFrame

Pyspark中DataFrame转换为pandas中DataFrame

 

 

6.从RDD转换得到DataFrame

6.1 利用反射机制推断RDD模式

创建RDD sc.textFile(url).map(),读文件,分割数据项

每个RDD元素转换成 Row

由Row-RDD转换到DataFrame

6.2 使用编程方式定义RDD模式

 

#下面生成“表头”
#下面生成“表中的记录”
#下面把“表头”和“表中的记录”拼装在一起

 

 

7. DataFrame的保存

df.write.text(dir)

df.write.json(dri)

df.write.format("text").save(dir)

df.write.format("json").save(dir)

 

1.总共有多少学生?

2.总共开设了多少门课程?

3.每个学生选修了多少门课?

4.每门课程有多少个学生选?

 

5.每门课程>95分的学生人数

6.课程'Python'有多少个100分?

7.Tom选修了几门课?每门课多少分?

8.Tom的成绩按分数大小排序。

9.Tom选修了哪几门课?

10.Tom的平均分。

11.'OperatingSystem'不及格人数

12.'OperatingSystem'平均分

13.'OperatingSystem'90分以上人数

14.'OperatingSystem'前3名

15.每个分数按比例+20平时分。

16.求每门课的平均分

 

 

 

  1. 选修了7门课的有多少个学生?

  2. 每门课大于95分的学生数

  3. 每门课的选修人数、平均分、不及格人数、通过率
  4. 优秀、良好、通过和不合格各有多少人?
  5. 同时选修了DataStructure和 DataBase 的学生
  6. 选修了DataStructure 但没有选修 DataBase 的学生
  7. 选修课程数少于3门的同学
  8. 选修6门及以上课程数的同学
  9. 查询平均成绩大于等于60分的姓名和平均成绩
  10. 找出平均分最高的10位同学

 

posted on 2022-05-11 15:28  江湖神经  阅读(140)  评论(0编辑  收藏  举报