补:
第六次作业:Spark SQL 及其DataFrame的基本操作
大作业:
1.选择使用什么数据,有哪些字段,多大数据量。
2020年美国新冠疫情数据。字段有日期,区县,州,截止该日期该区县的累计确诊人数,截止该日期该区县的累计死亡人数。数据量为15万左右
2.准备分析哪些问题?(8个以上)
- 计算每日的累计确诊病例数和死亡数
- 计算每日较昨日的新增确诊病例数和死亡病例数
- 统计截止5.19日美国各州的累计确诊人数和死亡人数
- 找出美国确诊最多的10个州
- 找出美国死亡最多的10个州
- 找出美国确诊最少的10个州
- 找出美国死亡最少的10个州
- 统计截止5.19日全美和各州的病死率
3.当前进展。
数据集的预处理