10 期末大作业

补交:
04 RDD编程练习 - 张孝龙同学 - 博客园 (cnblogs.com)
原因:完成后未及时提交。
05 RDD练习:词频统计,学习课程分数 - 张孝龙同学 - 博客园 (cnblogs.com)
原因:错过了提交时间。
07 从RDD创建DataFrame - 张孝龙同学 - 博客园 (cnblogs.com)
原因:学习后未完全掌握,完成作业比较慢导致错过提交时间。
09 spark连接mysql数据库 - 张孝龙同学 - 博客园 (cnblogs.com)
原因:在学习爬虫导致没有按时完成,错过了提交时间。

大作业:

1.选择使用什么数据,有哪些字段,多大数据量。

数据:我国疫情数据

字段:省份、确诊人数、死亡人数、治愈人数、新增人数、日期

2.准备分析哪些问题,可视化方式?(8个以上)

(1)我国现有感染人数情况, 地图

(2) 我国现有感染人数情况, 柱状图

(3)主要城市现有感染人数情况,柱状图

(4)我国疫情情况,饼图

(5)日新增人数前五的省份,漏斗图

(6)日新增感染人数前八个的省份,散点图

(7)所有省份的词云,词云,

(8)现有感染人数前八个的省份, 象型图

3.当前进展。

正在获取数据

posted on 2021-06-07 20:54  张孝龙同学  阅读(48)  评论(0编辑  收藏  举报