摘要:累加器:分布式共享只写变量 1. 把Executor端的信息聚合到Driver端 2. 在Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的新的副本 每个task更新副本的值之后,传回Driver端进行merge(合并) 3.原理类似于mapreduce,分布式改变,
阅读全文
posted @ 2020-12-05 21:10
|
|
|
随笔分类 - Spark学习之路
在学习spark路上遇见的各种坑,分享以及共同学习,欢迎大家的建议和指教!
摘要:累加器:分布式共享只写变量 1. 把Executor端的信息聚合到Driver端 2. 在Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的新的副本 每个task更新副本的值之后,传回Driver端进行merge(合并) 3.原理类似于mapreduce,分布式改变,
阅读全文
posted @ 2020-12-05 21:10
摘要:RDD的cache缓存 -如果一个RDD需要重复使用,那么需要从头再次执行来获取数据 -RDD对象可以重用,但是数据不可以重用 -RDD通过Cache或者Persist方法讲前面计算的结果缓存,把数据以缓存在JVM的堆内存中 -但是并不是这两方法被调用时立即缓存,而是触发后面的action算子时,该
阅读全文
posted @ 2020-12-05 20:48
摘要:部署模式对比 模式 Spark安装机器数 需要启动的进程 所属 应用场景 Local 1 无 Spark 测试 Standalone 3 Master&Worker Spark 单独部署 Yarn 1 Yarn&HDFS Hadoop 混合部署 端口号: - 4040(计算端口) : Spark查看
阅读全文
posted @ 2020-12-04 15:47
摘要:首先我们来看看Hadoop的相关简短回顾: 1. Hadoop是由Java语言编写,在分布式集群上存储海量数据并运行分布式分析应用框架 2. HDFS为其存储数据的分布式文件系统 3. 分布式计算框架为MapReduce 4. HBase一个基于HDFS的分布式非关系型数据库 5. Yarn作为分布
阅读全文
posted @ 2020-12-04 15:14
摘要:在安装独立部署模式中遇见的坑: 步骤一: 解压安装:tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /你的目标安装目录 #最好是从根目录跟踪 步骤二: 改文件名并修改配置文件: 注意:这里slaves中当时我的里面有一个localhost 没有注释,所以导致了M
阅读全文
posted @ 2020-11-28 10:34
|
|