06 2021 档案
第七次作业:从RDD创建DataFrame
摘要:1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.com/spark%E4%B8%8E 阅读全文
posted @ 2021-06-14 18:27 桉叶 阅读(63) 评论(0) 推荐(0)
第六次作业:Spark SQL 及其DataFrame的基本操作
摘要:1.Spark SQL出现的原因是什么? Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询,但是Shark继承了Hive的大且复杂的代码使得Sh 阅读全文
posted @ 2021-06-14 18:17 桉叶 阅读(267) 评论(0) 推荐(0)
第十次作业:期末大作业
摘要:补: 第六次作业:Spark SQL 及其DataFrame的基本操作 第七次作业:从RDD创建DataFrame 大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 2020年美国新冠疫情数据。字段有日期,区县,州,截止该日期该区县的累计确诊人数,截止该日期该区县的累计死亡人数。数据量为15 阅读全文
posted @ 2021-06-11 14:54 桉叶 阅读(64) 评论(0) 推荐(0)