期末大作业
补交 02 Spark架构与运行流程 和 07 Spark RDD编程 综合实例 英文词频统计 作业
未交原因: 发在随笔上忘记提交了
期末大作业:
1.选择使用什么数据,有哪些字段,多大数据量。
数据集:2020年新冠肺炎疫情数据作为数据集
字段:5个字段,分别是:date,county,state,cases,deaths
数据量:150000条数据
2.准备分析哪些问题,可视化方式?(8个以上)
(1)统计美国截止每日的累计确诊人数和累计死亡人数,以双柱状图形式呈现。
(2)统计美国每日的新增确诊人数和新增死亡人数,以折线图形式呈现。
(3)统计截止5.19日,美国各州的累计确诊人数和死亡人数,以表格形式呈现。
(4)统计截止5.19日,美国确诊人数最多的十个州,以词云图形式呈现。
(5)统计截止5.19日,美国死亡人数最多的十个州,以象柱状图形式呈现。
(6)统计截止5.19日,美国确诊人数最少的十个州,以词云图形式呈现。
(7)统计截止5.19日,美国死亡人数最少的十个州,以漏斗图形式呈现。
(8)统计截止5.19日,全美和各州的病死率,以饼状图形式呈现。
3.当前进展。
数据已有