10 期末大作业

02 Spark架构与运行流程

03 Spark RDD编程基础

05 RDD练习:词频统计,学习课程分数

07 Spark RDD编程 综合实例 英文词频统计

07 从RDD创建DataFrame

作业截图在课堂上保存了,没有来得及整理归纳,回宿舍没留意好提交时间,导致错过了

 

大作业:

1.选择使用什么数据,有哪些字段,多大数据量。

数据:us-counties美新冠数据

字段:日期、国家、洲、病例、死亡数

2.准备分析哪些问题,可视化方式?(8个以上)

(1).   统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段,对cases和deaths字段进行汇总统计。

(2).   统计美国每日的新增确诊人数和新增死亡人数。因为新增数=今日数-昨日数,所以考虑使用自连接,连接条件是t1.date = t2.date + 1,然后使用t1.totalCases – t2.totalCases计算该日新增。

(3).   统计截止5.19日,美国各州的累计确诊人数和死亡人数。首先筛选出5.19日的数据,然后以state作为分组字段,对cases和deaths字段进行汇总统计。

(4).   统计截止5.19日,美国确诊人数最多的十个州。对3)的结果DataFrame注册临时表,然后按确诊人数降序排列,并取前10个州。

(5).   统计截止5.19日,美国死亡人数最多的十个州。对3)的结果DataFrame注册临时表,然后按死亡人数降序排列,并取前10个州。

(6).   统计截止5.19日,美国确诊人数最少的十个州。对3)的结果DataFrame注册临时表,然后按确诊人数升序排列,并取前10个州。

(7).   统计截止5.19日,美国死亡人数最少的十个州。对3)的结果DataFrame注册临时表,然后按死亡人数升序排列,并取前10个州

统计截止5.19日,全美和各州的病死率。病死率 = 死亡数/确诊数,对3)的结果DataFrame注册临时表,然后按公式计算。

3.当前进展。

已有数据

 

posted @ 2021-06-06 12:00  戮花  阅读(68)  评论(0)    收藏  举报