摘要:
一、.选择使用什么数据,有哪些字段,多大数据量。 us-counties美新冠数据;字段有日期(date),县(county), 国家、州(state),确诊情况(cases),死亡人数(deaths); 二、准备分析哪些问题?(8个以上) 1、统计美国某个县每天的确诊病例和死亡病例 2、统计美国确 阅读全文
posted @ 2021-06-07 19:55
吴大叔
阅读(41)
评论(0)
推荐(0)
摘要:
1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.com/spark%E4%B8%8E 阅读全文
posted @ 2021-06-07 19:47
吴大叔
阅读(22)
评论(0)
推荐(0)
摘要:
1.Spark SQL出现的 原因是什么? Spark SQL的前身是 Shark,它运行在Spark系统之上,Shark重用了Hive的工作机制,并直接继承了Hive的各个组件, Shark将SQL语句的转换从MapReduce作业替换成了Spark作业,虽然这样提高了计算效率,但由于 Shark 阅读全文
posted @ 2021-06-07 19:45
吴大叔
阅读(74)
评论(0)
推荐(0)
摘要:
一、filter,map,flatmap练习: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words 3.全部转换为小写 4.去掉长度小于3的单词 5.去掉停用词 二、groupByKey练习 6.生成单词键值对 7..对单词进行分组 8.查看分组结果 学生科目成绩文件练 阅读全文
posted @ 2021-06-07 19:43
吴大叔
阅读(18)
评论(0)
推荐(0)


浙公网安备 33010602011771号