期末大作业
https://www.cnblogs.com/ws1208/p/14859365.html 07 从RDD创建DataFrame
https://www.cnblogs.com/ws1208/p/14859359.html 06 Spark SQL 及其DataFrame的基本操作
https://www.cnblogs.com/ws1208/p/14859347.html 05 RDD练习:词频统计,学习课程分数
https://www.cnblogs.com/ws1208/p/14859334.html 04 RDD编程练习
原因:错过了提交时间。
1.选择使用什么数据,有哪些字段,多大数据量。
数据:中国疫情数据
字段:新增累计确诊人数、新增现有确诊人数、现有确诊人数、累计确诊人数,无症状人数、死亡率,治愈人数,治愈率
数据量:2000
2.准备分析哪些问题,可视化方式
(1)、中国现有确诊感染人数情况top7, 柱状图
(2)、中国累计确诊感染人数情况top5, 柱状图
(3)、中国各省死亡率与治愈率 线型图
(4)、中国各省死亡人数与治愈人数,线型图
(5)、本土无症状感染者分布 饼图
(6)、各省现有确诊人数分布,饼图
(7)、中国词云,词云,
(8)、现有确诊病例 中国地图显示
3.当前进展。
有数据

浙公网安备 33010602011771号