10 期末大作业

缺交:

https://www.cnblogs.com/hyp1/p/14856258.html  07 从RDD创建DataFrame   缺交原因:、没注意好时间,导致错过了

https://www.cnblogs.com/hyp1/p/14856266.html 07 Spark RDD编程 综合实例 英文词频统计 缺交原因:没注意好时间,导致错过了

https://www.cnblogs.com/hyp1/p/14856268.html  05 RDD练习:词频统计,学习课程分数  缺交原因:没注意好时间,导致错过了

https://www.cnblogs.com/hyp1/p/14856272.html 06 Spark SQL 及其DataFrame的基本操作 缺交原因:没注意好时间,导致错过了

https://www.cnblogs.com/hyp1/p/14856282.html 02 Spark架构与运行流程 缺交原因:没注意好时间,导致错过了

 

大作业:

1.选择使用什么数据,有哪些字段,多大数据量。

数据:us-counties美新冠数据

字段:日期、国家、洲、病例、死亡数

2.准备分析哪些问题,可视化方式?(8个以上)

(1)  美国每日的累计确诊病例数和死亡数——>双柱状图

(2)  美国每日的新增确诊病例数和死亡数——>折线图

(3)  美国各州累计确诊死亡人数和病死率——>表格

(4)  美国累计确诊人数前10的州——>词云图

(5)  美国累计死亡人数前10的州——>柱状

(6)  美国确诊最少的10个州——>词云

(7)  美国累计死亡人数最少的10个州——>漏斗

(8)  美国的病死率——>饼状

3.当前进展。

已完成

posted @ 2021-06-04 17:28  Hyp-  阅读(48)  评论(0)    收藏  举报