期末大作业

补交  02 Spark架构与运行流程  和  07 Spark RDD编程 综合实例 英文词频统计  作业

未交原因:   发在随笔上忘记提交了

 

期末大作业:

1.选择使用什么数据,有哪些字段,多大数据量。

数据集:2020年新冠肺炎疫情数据作为数据集

字段:5个字段,分别是:date,county,state,cases,deaths

数据量:150000条数据

2.准备分析哪些问题,可视化方式?(8个以上)

(1)统计美国截止每日的累计确诊人数和累计死亡人数,以双柱状图形式呈现。

(2)统计美国每日的新增确诊人数和新增死亡人数,以折线图形式呈现。

(3)统计截止5.19日,美国各州的累计确诊人数和死亡人数,以表格形式呈现。

(4)统计截止5.19日,美国确诊人数最多的十个州,以词云图形式呈现。

(5)统计截止5.19日,美国死亡人数最多的十个州,以象柱状图形式呈现。

(6)统计截止5.19日,美国确诊人数最少的十个州,以词云图形式呈现。

(7)统计截止5.19日,美国死亡人数最少的十个州,以漏斗图形式呈现。

(8)统计截止5.19日,全美和各州的病死率,以状图形式呈现。

 

3.当前进展。

数据已有

posted @ 2021-06-06 22:56  hhhhhh1122  阅读(42)  评论(0编辑  收藏  举报