10 期末大作业

缺交:

https://www.cnblogs.com/123wen/p/14856373.html 03Spark RDD编程基础

https://www.cnblogs.com/123wen/p/14856364.html 07 Spark RDD编程 综合实例 英文词频统计

https://www.cnblogs.com/123wen/p/14856358.html 07 从RDD创建DataFrame 

https://www.cnblogs.com/123wen/p/14856335.html 08学生课程分数的Spark SQL分析

缺交原因:

没留意好时间,导致错过了

 

大作业:

1.选择使用什么数据,有哪些字段,多大数据量。

数据:中国疫情数据

字段:新增累计确诊人数、新增现有确诊人数、现有确诊人数、、累计确诊人数,死亡人数、死亡率,治愈人数,治愈率

数据量:2000

2.准备分析哪些问题,可视化方式?(8个以上)

(1)中国现有感染人数情况, 地图

(2) 中国现有感染人数情况, 柱状图

(3)北上广深现有感染人数情况,柱状图

(4)中国疫情情况,饼图

(5)日新增人数前五的省份,漏斗图

(6)日新增感染人数前八个的省份,散点图

(7)所有省份词云,词云,

(8)现有感染人数前八个的省份, 象型图

3.当前进展。

数据已有

posted @ 2021-06-06 21:07  123wen  阅读(33)  评论(0)    收藏  举报