10 期末大作业

一、.选择使用什么数据,有哪些字段,多大数据量。

us-counties美新冠数据;字段有日期(date),县(county),  国家、州(state),确诊情况(cases),死亡人数(deaths);

二、准备分析哪些问题?(8个以上)

1、统计美国某个县每天的确诊病例和死亡病例

2、统计美国确诊人数最多的那个县

3、统计截止5.19日,美国各州的累计确诊人数和死亡人数。首先筛选出5.19日的数据,然后以state作为分组字段,对cases和deaths字段进行汇总统计。

4、统计截止至5.19日,美国确诊人数最多的前十个州(对3的结果DataFrame注册临时表,然后按确诊人数降序排列,并取前10个州)

5、统计截止至5.19日,美国死亡人数最少的前十个州

6、统计美国死亡人数等于0的州

7、统计美国各州的病死率

8、统计美国确诊人数最少的那个州

三、当前进展

数据集的下载

 

补一下之前的:08 学生课程分数的Spark SQL分析 - 亮皓的小老舔狗 - 博客园 (cnblogs.com)

07 从RDD创建DataFrame - 亮皓的小老舔狗 - 博客园 (cnblogs.com)

Spark SQL 及其DataFrame的基本操作 - 亮皓的小老舔狗 - 博客园 (cnblogs.com)

 
posted @ 2021-06-07 19:58  亮皓的小老舔狗  阅读(30)  评论(0编辑  收藏  举报