查漏补缺:

07 从RDD创建DataFrame

 09 spark连接mysql数据库 

(忘记交了)

大作业:

1.选择使用什么数据,有哪些字段,多大数据量。

选择使用美国疫情数据;有日期、县、州、确诊人数、死亡人数

2.准备分析哪些问题?(8个以上)

美国每日的累计确诊病例数和死亡数

美国每日的新增确诊病例数

美国每日的新增死亡病例数

死亡人数最多的县

统计截止至5.19日,美国确诊人数最多的前十个州(对3的结果DataFrame注册临时表,然后按确诊人数降序排列,并取前10个州)

统计截止至5.19日,美国死亡人数最少的前十个州

统计美国死亡人数等于0的州

统计美国各州的病死率

统计美国确诊人数最少的那个州

posted on 2021-06-07 21:40  牛哈哈呀  阅读(15)  评论(0编辑  收藏  举报