10 期末大作业

1.选择使用什么数据,有哪些字段,多大数据量。

选用美国新冠数据集,变量有日期(date),县(county), 国家、州(state),确诊情况(cases),死亡人数(deaths),共158981条数据。

2.准备分析哪些问题?(8个以上)

(1)     统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段,对cases和deaths字段进行汇总统计。

(2)     统计美国每日的新增确诊人数和新增死亡人数。因为新增数=今日数-昨日数,所以考虑使用自连接,连接条件是t1.date = t2.date + 1,然后使用t1.totalCases – t2.totalCases计算该日新增。

(3)     统计截止5.19日,美国各州的累计确诊人数和死亡人数。首先筛选出5.19日的数据,然后以state作为分组字段,对cases和deaths字段进行汇总统计。

(4)     统计截止5.19日,美国确诊人数最多的十个州。对3)的结果DataFrame注册临时表,然后按确诊人数降序排列,并取前10个州。

(5)     统计截止5.19日,美国死亡人数最多的十个州。对3)的结果DataFrame注册临时表,然后按死亡人数降序排列,并取前10个州。

(6)     统计截止5.19日,美国确诊人数最少的十个州。对3)的结果DataFrame注册临时表,然后按确诊人数升序排列,并取前10个州。

(7)     统计截止5.19日,美国死亡人数最少的十个州。对3)的结果DataFrame注册临时表,然后按死亡人数升序排列,并取前10个州

(8)     统计截止5.19日,全美和各州的病死率。病死率 = 死亡数/确诊数,对3)的结果DataFrame注册临时表,然后按公式计算。

 

**查漏补缺:

  1. RDD操作当面检查。
  2. Spark SQL操作当面检查。
  3. 没提交成功的作业,链接放在本次作业的最前面,并注明哪次作业、没交原因。

第九次 时间原因

https://www.cnblogs.com/zlz0852/p/14856808.html
 
第七次
https://www.cnblogs.com/zlz0852/p/14856797.html
 
第六次
https://www.cnblogs.com/zlz0852/p/14856783.html
 
 
第五次
https://www.cnblogs.com/zlz0852/p/14856753.html
 
第四次
https://www.cnblogs.com/zlz0852/p/14856736.html
 
第二次
 
https://www.cnblogs.com/zlz0852/p/14856712.html
posted @ 2021-06-09 21:04  庄玉峰  阅读(14)  评论(0编辑  收藏  举报