随笔档案「2021年6月」 - 桉叶

第七次作业：从RDD创建DataFrame

摘要：1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.com/spark%E4%B8%8E 阅读全文

posted @ 2021-06-14 18:27 桉叶阅读(63) 评论(0) 推荐(0)

第六次作业：Spark SQL 及其DataFrame的基本操作

摘要：1.Spark SQL出现的原因是什么? Shark是一个为Spark设计的大规模数据仓库系统，它与Hive兼容。Shark建立在Hive的代码基础上，并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询，但是Shark继承了Hive的大且复杂的代码使得Sh 阅读全文

posted @ 2021-06-14 18:17 桉叶阅读(267) 评论(0) 推荐(0)

第十次作业：期末大作业

摘要：补：第六次作业：Spark SQL 及其DataFrame的基本操作第七次作业：从RDD创建DataFrame 大作业： 1.选择使用什么数据，有哪些字段，多大数据量。 2020年美国新冠疫情数据。字段有日期，区县，州，截止该日期该区县的累计确诊人数，截止该日期该区县的累计死亡人数。数据量为15 阅读全文

posted @ 2021-06-11 14:54 桉叶阅读(64) 评论(0) 推荐(0)