补:

第六次作业:Spark SQL 及其DataFrame的基本操作

第七次作业:从RDD创建DataFrame

大作业:

1.选择使用什么数据,有哪些字段,多大数据量。

2020年美国新冠疫情数据。字段有日期,区县,州,截止该日期该区县的累计确诊人数,截止该日期该区县的累计死亡人数。数据量为15万左右

2.准备分析哪些问题?(8个以上)

  1. 计算每日的累计确诊病例数和死亡数
  2. 计算每日较昨日的新增确诊病例数和死亡病例数
  3. 统计截止5.19日美国各州的累计确诊人数和死亡人数
  4. 找出美国确诊最多的10个州
  5. 找出美国死亡最多的10个州
  6. 找出美国确诊最少的10个州
  7. 找出美国死亡最少的10个州
  8. 统计截止5.19日全美和各州的病死率

3.当前进展。

数据集的预处理

posted on 2021-06-11 14:54  桉叶  阅读(48)  评论(0编辑  收藏  举报