Spark学习之路 - 随笔分类 - 乔伊_413

Spark共享变量和累加器的基本原理与用途

摘要：累加器：分布式共享只写变量 1. 把Executor端的信息聚合到Driver端 2. 在Driver程序中定义的变量，在Executor端的每个Task都会得到这个变量的新的副本每个task更新副本的值之后，传回Driver端进行merge（合并） 3.原理类似于mapreduce，分布式改变，阅读全文

posted @ 2020-12-05 21:10 乔伊_413 阅读(609) 评论(0) 推荐(0)

Spark缓存机制与检查点机制

摘要：RDD的cache缓存 -如果一个RDD需要重复使用，那么需要从头再次执行来获取数据 -RDD对象可以重用，但是数据不可以重用 -RDD通过Cache或者Persist方法讲前面计算的结果缓存，把数据以缓存在JVM的堆内存中 -但是并不是这两方法被调用时立即缓存，而是触发后面的action算子时，该阅读全文

posted @ 2020-12-05 20:48 乔伊_413 阅读(320) 评论(0) 推荐(0)

Spark部署模式&端口号&提交作业参数说明

摘要：部署模式对比模式 Spark安装机器数需要启动的进程所属应用场景 Local 1 无 Spark 测试 Standalone 3 Master&Worker Spark 单独部署 Yarn 1 Yarn&HDFS Hadoop 混合部署端口号: - 4040(计算端口) : Spark查看阅读全文

posted @ 2020-12-04 15:47 乔伊_413 阅读(749) 评论(0) 推荐(0)

Spark和Hadoop的联系和区别

摘要：首先我们来看看Hadoop的相关简短回顾： 1. Hadoop是由Java语言编写，在分布式集群上存储海量数据并运行分布式分析应用框架 2. HDFS为其存储数据的分布式文件系统 3. 分布式计算框架为MapReduce 4. HBase一个基于HDFS的分布式非关系型数据库 5. Yarn作为分布阅读全文

posted @ 2020-12-04 15:14 乔伊_413 阅读(699) 评论(0) 推荐(0)

安装Spark时遇见的坑

摘要：在安装独立部署模式中遇见的坑：步骤一：解压安装：tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /你的目标安装目录 #最好是从根目录跟踪步骤二：改文件名并修改配置文件：注意：这里slaves中当时我的里面有一个localhost 没有注释，所以导致了M 阅读全文

posted @ 2020-11-28 10:34 乔伊_413 阅读(313) 评论(0) 推荐(0)

乔伊_413

导航

公告

随笔分类 - Spark学习之路

Spark共享变量和累加器的基本原理与用途

Spark缓存机制与检查点机制

Spark部署模式&端口号&提交作业参数说明

Spark和Hadoop的联系和区别

安装Spark时遇见的坑