10 期末大作业

https://www.cnblogs.com/yanw/p/14858966.html  02 Spark架构与运行流程      错过了提交时间

https://www.cnblogs.com/yanw/p/14858941.html  05 RDD练习:词频统计,学习课程分数     忘记交了

https://www.cnblogs.com/yanw/p/14858958.html  07 Spark RDD编程 综合实例 英文词频统计     错过了提交时间

 

大作业:

 

1.选择使用什么数据,有哪些字段,多大数据量。

 

kaggle提供的美国疫情数据 

字段:date 日期   

           county 区县(州的下一级单位)

           state 州

           cases 截止该日期该区县的累计确诊人数

           deaths 截止该日期该区县的累计确诊人数

 

2.准备分析哪些问题,可视化方式?(8个以上)

 

(1). 统计美国截止每日的累计确诊人数和累计死亡人数。可视化方式:双柱状图

 

(2). 统计美国每日的新增确诊人数和新增死亡人数。可视化方式:折线图

 

(3). 统计截止5.19日,美国各州的累计确诊人数和死亡人数。可视化方式:表格

 

(4). 统计截止5.19日,美国确诊人数最多的十个州。可视化方式:词云图

 

(5). 统计截止5.19日,美国死亡人数最多的十个州。可视化方式:象柱状图

 

(6). 统计截止5.19日,美国确诊人数最少的十个州。可视化方式:词云图

 

(7). 统计截止5.19日,美国死亡人数最少的十个州。可视化方式:漏斗图

 

(8). 统计截止5.19日,全美和各州的病死率。可视化方式:饼状图

 

3.当前进展。

 

已有数据集

 

posted @ 2021-06-07 15:37  颜文妮  阅读(50)  评论(0编辑  收藏  举报