摘要: 开发好pyspark应用程序后,就可以将其提交到服务器上运行了。 在Spark根目录下的bin目录里,使用spark-submit工具可以进行pyspark应用程序的提交,请看: OK,就这么简单! 阅读全文
posted @ 2024-01-02 15:40 田攀攀的博客 阅读(49) 评论(0) 推荐(0)
摘要: 既然要开发pyspark应用程序,那么,首选的IDE当然就是PyCharm了,因为PyCharm是一款专门开发Python的IDE。 在这里,主要说明一下使用PyCharm开发pyspark程序的几个配置: (1)除了设置基本的python interceptor之外,还要设置PYTHONPATH和 阅读全文
posted @ 2024-01-02 15:22 田攀攀的博客 阅读(535) 评论(0) 推荐(0)
摘要: 大数据框架可不是只有Hadoop哦,还有一个非常厉害的框架,它就是——Spark。 一:什么是Spark Apache Spark是一个快速通用的集群计算系统,是一种与Hadoop相似的开源集群计算环境,但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的 阅读全文
posted @ 2024-01-02 10:51 田攀攀的博客 阅读(45) 评论(0) 推荐(0)
摘要: 很多小伙伴在学习了多年大数据后,最后不得不感慨:“大数据的知识太繁杂了,我已经被淹没在大数据的海洋里了!”确实是的,在大数据学习的过程中,随着学习的深入,越来越多的新名词和新框架让学习者有种欲哭无泪的感觉,那么,这篇博文就对大数据开发的一个总体架构做一个介绍吧,让大家学习过程中,不至于迷失方向。先上 阅读全文
posted @ 2024-01-02 09:50 田攀攀的博客 阅读(93) 评论(0) 推荐(0)
摘要: 在Hive的学习中,有一个非常重要的知识点,那就是Hive的表类型。 Hive的表类型主要有:内部表(受控表)、外部表、临时表、分区表、分桶表。 一:内部表 内部表又称受控表,hive默认创建的表类型为内部表,当删除内部表的时候,数据和元数据都会被删除。 二:外部表 创建外部表需要使用EXTERNA 阅读全文
posted @ 2024-01-02 09:29 田攀攀的博客 阅读(334) 评论(0) 推荐(0)