随笔分类 - spark
摘要:hue 集成spark+livy 一.先决条件 安装hue、hadoop。 二.spark on yarn 安装 1.添加环境变量 vim /etc/profile 2.配置spark; vim conf/spark-env.sh 3.配置spark ;vim conf/spark-defaults
阅读全文
摘要:代码: 使用上述的代码取userGroupMapping 集合过后的100条记录,出现了executor time out 和GC overhead limit exceeded 异常。一开始以为推测是task 从mongodb取的数据太大,导致spark executor内存不够,后来调研了一下s
阅读全文
摘要:1.下载zepplin 进入官网下载地址 ,下载完整tar包. 2.解压 3.修改配置 新建配置文件 修改配置文件 # 设置java home 路径 export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.141-1.b16.el7_3.x86_
阅读全文
摘要:spark ui acl 不生效的问题分析 按照spark 文档配置了spark.acls.enable, spark.ui.view.acls 等参数,再去访问spark web ui后台,还是可以访问,说明acl没有生效。为什么么有生效呢?本人查看了spark源码后,发现要让acl 生效,还要配
阅读全文
摘要:解决Spark集群无法停止 执行stop-all.sh时,出现报错:no org.apache.spark.deploy.master.Master to stop,no org.apache.spark.deploy.worker.Worker to stop 原因: Spark的停止,是通过一些
阅读全文
摘要:一、调度分类 调度分为两种,一是应用之间的,二是应用内部作业的。 (一)应用之间 我们前面几章有说过,一个spark-submit提交的是一个应用,不同的应用之间是有调度的,这个就由资源分配者来调度。如果我们使用Yarn,那么就由Yarn来调度。调度方式的配置就在$HADOOP_HOME/etc/h
阅读全文
摘要:架构 前三章从 job 的角度介绍了用户写的 program 如何一步步地被分解和执行。这一章主要从架构的角度来讨论 master,worker,driver 和 executor 之间怎么协调来完成整个 job 的运行。 实在不想在文档中贴过多的代码,这章贴这么多,只是为了方面自己回头 debug
阅读全文
摘要:DAGSchedulerEventProcessLoop 源码 上面的eventLoop是事件循环器典型的代码,可以直接应用到自己项目产品中。
阅读全文
摘要:rdd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。 两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。 假设一个rdd有10个元素,分成3个分区。如果使用map方法,map中的输入函
阅读全文
摘要:spark map reduce 原理图 截图自:《深入理解spark核心思想和源码分析》
阅读全文
摘要:spark streaming task 序列化源码 1.入口 2.RDD.scala foreachPartition 代码逻辑 3.SparkContext runJob 代码逻辑 4.DAGScheduler runJob 代码逻辑 5.DAGSchedulerEventProcessLoop
阅读全文
摘要:spark streaming 程序设置jvm参数 spark streaming 程序设置jvm参数,比如添加jconsole 远程连接参数: 完整例子
阅读全文
摘要:为什么spark streaming 程序一直打印Added jobs for time *** ms 而不执行job 问题截图: 答案截图: stackoverflow 上面的答案:https://stackoverflow.com/questions/36281665/continuously-
阅读全文
摘要:vi /etc/profile 在profile 文件最后一行加入命令: export SPARK_SSH_OPTS="-p 7315" #注:7315 是ssh 端口
阅读全文
摘要:Spark standalone HA 配置Spark standalone HA 主机:node1,node2,node3 master: node1,node2 slave:node2,node3 修改配置文件: node1,node3: spark-env.sh export SPARK_MA
阅读全文
摘要:Spark性能优化指南——高级篇 李雪蕤 ·2016-05-12 14:47 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的
阅读全文
摘要:一.指定spark executor 数量的公式 executor 数量 = spark.cores.max/spark.executor.cores spark.cores.max 是指你的spark程序需要的总核数 spark.executor.cores 是指每个executor需要的核数 参
阅读全文
摘要:Spark运行模式:cluster与client 一. 部署模式原理 When run SparkSubmit --class [mainClass], SparkSubmit will call a childMainClass which is 1. client mode, childMain
阅读全文
浙公网安备 33010602011771号