摘要:
开发好pyspark应用程序后,就可以将其提交到服务器上运行了。 在Spark根目录下的bin目录里,使用spark-submit工具可以进行pyspark应用程序的提交,请看: OK,就这么简单! 阅读全文
posted @ 2024-01-02 15:40
田攀攀的博客
阅读(49)
评论(0)
推荐(0)
摘要:
既然要开发pyspark应用程序,那么,首选的IDE当然就是PyCharm了,因为PyCharm是一款专门开发Python的IDE。 在这里,主要说明一下使用PyCharm开发pyspark程序的几个配置: (1)除了设置基本的python interceptor之外,还要设置PYTHONPATH和 阅读全文
posted @ 2024-01-02 15:22
田攀攀的博客
阅读(535)
评论(0)
推荐(0)
摘要:
大数据框架可不是只有Hadoop哦,还有一个非常厉害的框架,它就是——Spark。 一:什么是Spark Apache Spark是一个快速通用的集群计算系统,是一种与Hadoop相似的开源集群计算环境,但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的 阅读全文
posted @ 2024-01-02 10:51
田攀攀的博客
阅读(45)
评论(0)
推荐(0)
摘要:
很多小伙伴在学习了多年大数据后,最后不得不感慨:“大数据的知识太繁杂了,我已经被淹没在大数据的海洋里了!”确实是的,在大数据学习的过程中,随着学习的深入,越来越多的新名词和新框架让学习者有种欲哭无泪的感觉,那么,这篇博文就对大数据开发的一个总体架构做一个介绍吧,让大家学习过程中,不至于迷失方向。先上 阅读全文
posted @ 2024-01-02 09:50
田攀攀的博客
阅读(93)
评论(0)
推荐(0)
摘要:
在Hive的学习中,有一个非常重要的知识点,那就是Hive的表类型。 Hive的表类型主要有:内部表(受控表)、外部表、临时表、分区表、分桶表。 一:内部表 内部表又称受控表,hive默认创建的表类型为内部表,当删除内部表的时候,数据和元数据都会被删除。 二:外部表 创建外部表需要使用EXTERNA 阅读全文
posted @ 2024-01-02 09:29
田攀攀的博客
阅读(334)
评论(0)
推荐(0)

浙公网安备 33010602011771号