期末大作业

https://www.cnblogs.com/ws1208/p/14859365.html     07 从RDD创建DataFrame

https://www.cnblogs.com/ws1208/p/14859359.html 06 Spark SQL 及其DataFrame的基本操作

https://www.cnblogs.com/ws1208/p/14859347.html 05 RDD练习:词频统计,学习课程分数

 https://www.cnblogs.com/ws1208/p/14859334.html  04 RDD编程练习

原因:错过了提交时间。

1.选择使用什么数据,有哪些字段,多大数据量。

数据:中国疫情数据

字段:新增累计确诊人数、新增现有确诊人数、现有确诊人数、累计确诊人数,无症状人数、死亡率,治愈人数,治愈率

数据量:2000

2.准备分析哪些问题,可视化方式

(1)、中国现有确诊感染人数情况top7,  柱状图

(2)、中国累计确诊感染人数情况top5, 柱状图

(3)、中国各省死亡率与治愈率   线型图

(4)、中国各省死亡人数与治愈人数,线型图

(5)、本土无症状感染者分布          饼图

(6)、各省现有确诊人数分布,饼图

(7)、中国词云,词云,

(8)、现有确诊病例  中国地图显示

3.当前进展。

 有数据
 

posted @ 2021-06-07 16:39  gannina  阅读(51)  评论(0)    收藏  举报