10 期末大作业
缺交:
https://www.cnblogs.com/123wen/p/14856373.html 03Spark RDD编程基础
https://www.cnblogs.com/123wen/p/14856364.html 07 Spark RDD编程 综合实例 英文词频统计
https://www.cnblogs.com/123wen/p/14856358.html 07 从RDD创建DataFrame
https://www.cnblogs.com/123wen/p/14856335.html 08学生课程分数的Spark SQL分析
缺交原因:
没留意好时间,导致错过了
大作业:
1.选择使用什么数据,有哪些字段,多大数据量。
数据:中国疫情数据
字段:新增累计确诊人数、新增现有确诊人数、现有确诊人数、、累计确诊人数,死亡人数、死亡率,治愈人数,治愈率
数据量:2000
2.准备分析哪些问题,可视化方式?(8个以上)
(1)中国现有感染人数情况, 地图
(2) 中国现有感染人数情况, 柱状图
(3)北上广深现有感染人数情况,柱状图
(4)中国疫情情况,饼图
(5)日新增人数前五的省份,漏斗图
(6)日新增感染人数前八个的省份,散点图
(7)所有省份词云,词云,
(8)现有感染人数前八个的省份, 象型图
3.当前进展。
数据已有

浙公网安备 33010602011771号