期末大作业

https://www.cnblogs.com/lyx092/p/14856047.html 05 RDD练习:词频统计,学习课程分数       缺交原因:忘了

https://www.cnblogs.com/lyx092/p/14856038.html 07 Spark RDD编程 综合实例 英文词频统计  缺交原因:忘了

https://www.cnblogs.com/lyx092/p/14856029.html 06 Spark SQL 及其DataFrame的基本操作    缺交原因:忘了

https://www.cnblogs.com/lyx092/p/14856027.html 09 Spark 连接mysql数据库                            缺交原因:忘了

大作业:

1.选择使用什么数据,有哪些字段,多大数据量。

数据:中国疫情数据

字段:省份、确诊人数、死亡人数、治愈人数、新增人数

 

2.准备分析哪些问题,可视化方式?(8个以上)

(1)中国现有感染人数情况: 地图

(2) 中国现有感染人数情况: 柱状图

(3)北上广深现有感染人数情况:柱状图

(4)中国疫情情况:柱状图

(5)日新增人数前五的省份:柱状图

(6)日新增感染人数前八个的省份:散点图

(7)所有省份词云:词云

(8)现有感染人数前八个的省份:柱状图

 

3.当前进展。

有了数据表

posted @ 2021-06-06 18:54  骑逸  阅读(34)  评论(0编辑  收藏  举报