摘要: 一:元注解: 元注解(meta-annotation)是指用来注解其他注解的注解。Java语言中提供了4种元注解,分别是@Retention、@Target、@Inherited和@Documented。它们的作用如下: 例如,@Retention有一个属性value,是RetentionPolic 阅读全文
posted @ 2024-02-29 15:47 田攀攀的博客 阅读(23) 评论(0) 推荐(0)
摘要: 说起Spark Streaming,玩大数据的没有不知道的,但对于小白来说还是有些生疏,所以本篇文章就来介绍一下Spark Streaming,以期让同行能更清楚地掌握Spark Streaming的原理。 一:什么是Spark Streaming 官方对于Spark Streaming的介绍是这样 阅读全文
posted @ 2024-01-19 12:30 田攀攀的博客 阅读(187) 评论(0) 推荐(0)
摘要: 一:Shuffle 在宽依赖关系中,RDD会根据每条记录的key进行不同分区的数据聚集,数据聚集的过程称为Shuffle。例如,对一个RDD进行reduceByKey()操作,RDD中相同key的所有记录将进行聚合,而key相同的所有记录可能不在同一个分区中,甚至不在同一个节点上,但是该操作必须将这 阅读全文
posted @ 2024-01-16 13:09 田攀攀的博客 阅读(69) 评论(0) 推荐(0)
摘要: 在Spark中,对RDD进行的每一次转化操作都会生成一个新的RDD,由于RDD的懒加载特性,新的RDD会依赖原有RDD,因此RDD之间存在类似流水线的前后依赖关系。这种依赖关系分为两种:窄依赖和宽依赖。 一:窄依赖 窄依赖是指父RDD的一个分区最多被子RDD的一个分区所用。例如map()、filte 阅读全文
posted @ 2024-01-16 12:51 田攀攀的博客 阅读(852) 评论(0) 推荐(0)
摘要: Spark On YARN模式遵循YARN的官方规范,YARN只负责资源的管理和调度,运行哪种应用程序由用户自己决定,因此可能在YARN上同时运行MapReduce程序和Spark程序,YARN对每一个程序很好地实现了资源的隔离。这使得Spark与MapReduce可以运行于同一个集群中,共享集群存 阅读全文
posted @ 2024-01-12 19:44 田攀攀的博客 阅读(115) 评论(0) 推荐(0)
摘要: Spark有多种运行模式,可以运行在一台机器上,称为本地(单机)模式——local模式;可以使用Spark自带的资源调度系统,称为Spark Standalone模式;也可以以YARN或Mesos作为底层资源调度系统以分布式的方式在集群中运行,称为Spark On YARN模式。本文就介绍前两种运行 阅读全文
posted @ 2024-01-07 18:46 田攀攀的博客 阅读(803) 评论(0) 推荐(0)
摘要: wordcount(词频统计)案例作为入门案例,几乎是大数据领域都很热衷的经典案例,那么今天就通过使用pyspark来实现一下吧,废话不多说,直接上代码: import sys from pyspark import SparkConf, SparkContext if __name__ == '_ 阅读全文
posted @ 2024-01-04 21:32 田攀攀的博客 阅读(293) 评论(0) 推荐(0)
摘要: 开发好pyspark应用程序后,就可以将其提交到服务器上运行了。 在Spark根目录下的bin目录里,使用spark-submit工具可以进行pyspark应用程序的提交,请看: OK,就这么简单! 阅读全文
posted @ 2024-01-02 15:40 田攀攀的博客 阅读(49) 评论(0) 推荐(0)
摘要: 既然要开发pyspark应用程序,那么,首选的IDE当然就是PyCharm了,因为PyCharm是一款专门开发Python的IDE。 在这里,主要说明一下使用PyCharm开发pyspark程序的几个配置: (1)除了设置基本的python interceptor之外,还要设置PYTHONPATH和 阅读全文
posted @ 2024-01-02 15:22 田攀攀的博客 阅读(535) 评论(0) 推荐(0)
摘要: 大数据框架可不是只有Hadoop哦,还有一个非常厉害的框架,它就是——Spark。 一:什么是Spark Apache Spark是一个快速通用的集群计算系统,是一种与Hadoop相似的开源集群计算环境,但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的 阅读全文
posted @ 2024-01-02 10:51 田攀攀的博客 阅读(45) 评论(0) 推荐(0)