摘要: # Shuffle的深入理解 什么是Shuffle,本意为洗牌,在数据处理领域里面,意为将数打散。 问题:shuffle一定有网络传输吗?有网络传输的一定是Shuffle吗? ## Shuffle的概念 通过网络将数据传输到多台机器,数据被打散,但是有网络传输,不一定就有shuffle,Shuffl 阅读全文
posted @ 2023-07-05 19:32 _泡泡 阅读(77) 评论(0) 推荐(0) 编辑
摘要: # RDD特殊的算子 ## cache、persist 将数据缓存到内存,第一次触发Action,才会将数据放入内存,以后在触发Action,可以复用前面内存中缓存的数据,可以提升技术效率 cache和persist的使用场景:一个application多次触发Action,为了复用前面RDD的数据 阅读全文
posted @ 2023-07-04 19:25 _泡泡 阅读(15) 评论(0) 推荐(0) 编辑
摘要: # RDD的Action算子 Action算子会触发Job的生成,底层调用的是sparkContext.runJob方法,根据最后一个RDD,从后往前,切分Stage,生成Task ![image](https://img2023.cnblogs.com/blog/1742816/202307/17 阅读全文
posted @ 2023-07-03 21:08 _泡泡 阅读(23) 评论(0) 推荐(0) 编辑
摘要: # RDD的Transformation算子 ## map map算子的功能为做映射,即将原来的RDD中对应的每一个元素,应用外部传入的函数进行运算,返回一个新的RDD ```Scala val rdd1: RDD[Int] = sc.parallelize(List(1,2,3,4,5,6,7,8 阅读全文
posted @ 2023-07-01 19:57 _泡泡 阅读(41) 评论(0) 推荐(0) 编辑
摘要: # 使用PySpark ## 配置python环境 在所有节点上按照python3,版本必须是python3.6及以上版本 ```Shell yum install -y python3 ``` 修改所有节点的环境变量 ```Shell export JAVA_HOME=/usr/local/jdk 阅读全文
posted @ 2023-06-29 21:07 _泡泡 阅读(49) 评论(0) 推荐(0) 编辑
摘要: # Scala编写Spark的WorkCount ## 创建一个Maven项目 在pom.xml中添加依赖和插件 ```XML 8 8 UTF-8 3.2.3 2.12.15 org.scala-lang scala-library ${scala.version} org.apache.spark 阅读全文
posted @ 2023-06-28 20:43 _泡泡 阅读(35) 评论(0) 推荐(0) 编辑
摘要: # StandAlone模式环境搭建 环境准备:三台Linux,一个安装Master,其他两台机器安装Worker ![image](https://img2023.cnblogs.com/blog/1742816/202306/1742816-20230627212426287-907092698 阅读全文
posted @ 2023-06-27 21:37 _泡泡 阅读(99) 评论(0) 推荐(0) 编辑
摘要: # Spark架构体系 StandAlone模式是spark自带的集群运行模式,不依赖其他的资源调度框架,部署起来简单。 StandAlone模式又分为client模式和cluster模式,本质区别是Driver运行在哪里,如果Driver运行在SparkSubmit进程中就是Client模式,如果 阅读全文
posted @ 2023-06-26 19:34 _泡泡 阅读(30) 评论(0) 推荐(0) 编辑
摘要: # Spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache的顶级项目,2014年5月发布spark1.0,2016年7月发布spark2.0,2020年6月 阅读全文
posted @ 2023-06-25 23:17 _泡泡 阅读(76) 评论(0) 推荐(0) 编辑
摘要: # SQL join语法案例 Data: ```Plain Text order.txt order011,u001,300 order012,u002,200 order023,u006,100 order056,u007,300 order066,u003,500 order055,u004,3 阅读全文
posted @ 2023-06-24 19:22 _泡泡 阅读(38) 评论(0) 推荐(1) 编辑