补:

https://www.cnblogs.com/cmy523/p/14860662.html:

06 SPARK SQL 及其DATAFRAME的基本操作

   原因:忘了交了

一、.选择使用什么数据,有哪些字段,多大数据量。

us-counties美新冠数据;字段有日期(date),县(county),  国家、州(state),确诊情况(cases),死亡人数(deaths);

二、准备分析哪些问题?(8个以上)

1、统计美国某个县每天的确诊病例和死亡病例

2、统计美国确诊人数最多的那个县

3、统计截止5.19日,美国各州的累计确诊人数和死亡人数。首先筛选出5.19日的数据,然后以state作为分组字段,对cases和deaths字段进行汇总统计。

4、统计截止至5.19日,美国确诊人数最多的前十个州(对3的结果DataFrame注册临时表,然后按确诊人数降序排列,并取前10个州)

5、统计截止至5.19日,美国死亡人数最少的前十个州

6、统计美国死亡人数等于0的州

7、统计美国各州的病死率

8、统计美国确诊人数最少的那个州

三、当前进展

进行数据分析,通过问题查询数据