spark - 随笔分类 - yimison

hue 集成spark+livy

摘要：hue 集成spark+livy 一.先决条件安装hue、hadoop。二.spark on yarn 安装 1.添加环境变量 vim /etc/profile 2.配置spark; vim conf/spark-env.sh 3.配置spark ;vim conf/spark-defaults 阅读全文

posted @ 2018-05-21 15:57 yimison 阅读(8267) 评论(1) 推荐(0)

spark 读取mongodb失败,报executor time out 和GC overhead limit exceeded 异常

摘要：代码：使用上述的代码取userGroupMapping 集合过后的100条记录，出现了executor time out 和GC overhead limit exceeded 异常。一开始以为推测是task 从mongodb取的数据太大，导致spark executor内存不够，后来调研了一下s 阅读全文

posted @ 2018-05-03 11:19 yimison 阅读(377) 评论(0) 推荐(0)

在zepplin 使用spark sql 查询mongodb的数据

摘要：1.下载zepplin 进入官网下载地址 ,下载完整tar包. 2.解压 3.修改配置新建配置文件修改配置文件 # 设置java home 路径 export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.141-1.b16.el7_3.x86_ 阅读全文

posted @ 2018-05-02 18:11 yimison 阅读(838) 评论(0) 推荐(0)

spark ui acl 不生效的问题分析

摘要：spark ui acl 不生效的问题分析按照spark 文档配置了spark.acls.enable， spark.ui.view.acls 等参数，再去访问spark web ui后台，还是可以访问，说明acl没有生效。为什么么有生效呢？本人查看了spark源码后，发现要让acl 生效，还要配阅读全文

posted @ 2018-04-12 11:29 yimison 阅读(772) 评论(0) 推荐(0)

解决Spark集群无法停止

摘要：解决Spark集群无法停止执行stop-all.sh时，出现报错：no org.apache.spark.deploy.master.Master to stop，no org.apache.spark.deploy.worker.Worker to stop 原因： Spark的停止，是通过一些阅读全文

posted @ 2018-04-12 09:53 yimison 阅读(821) 评论(0) 推荐(0)

spark 作业调度

摘要：一、调度分类调度分为两种，一是应用之间的，二是应用内部作业的。（一）应用之间我们前面几章有说过，一个spark-submit提交的是一个应用，不同的应用之间是有调度的，这个就由资源分配者来调度。如果我们使用Yarn，那么就由Yarn来调度。调度方式的配置就在$HADOOP_HOME/etc/h 阅读全文

posted @ 2018-04-11 21:28 yimison 阅读(1665) 评论(0) 推荐(0)

spark 作业提交(架构层面)

摘要：架构前三章从 job 的角度介绍了用户写的 program 如何一步步地被分解和执行。这一章主要从架构的角度来讨论 master，worker，driver 和 executor 之间怎么协调来完成整个 job 的运行。实在不想在文档中贴过多的代码，这章贴这么多，只是为了方面自己回头 debug 阅读全文

posted @ 2018-03-19 12:07 yimison 阅读(686) 评论(0) 推荐(0)

DAGSchedulerEventProcessLoop 源码

摘要：DAGSchedulerEventProcessLoop 源码上面的eventLoop是事件循环器典型的代码，可以直接应用到自己项目产品中。阅读全文

posted @ 2018-03-19 11:59 yimison 阅读(244) 评论(0) 推荐(0)

spark mapPartition方法与map方法的区别

摘要：rdd的mapPartitions是map的一个变种，它们都可进行分区的并行处理。两者的主要区别是调用的粒度不一样：map的输入变换函数是应用于RDD中每个元素，而mapPartitions的输入函数是应用于每个分区。假设一个rdd有10个元素，分成3个分区。如果使用map方法，map中的输入函阅读全文

posted @ 2018-03-16 16:38 yimison 阅读(617) 评论(0) 推荐(0)

spark map reduce 原理图

摘要：spark map reduce 原理图截图自：《深入理解spark核心思想和源码分析》阅读全文

posted @ 2018-03-11 16:09 yimison 阅读(162) 评论(0) 推荐(0)

spark streaming task 序列化源码

摘要：spark streaming task 序列化源码 1.入口 2.RDD.scala foreachPartition 代码逻辑 3.SparkContext runJob 代码逻辑 4.DAGScheduler runJob 代码逻辑 5.DAGSchedulerEventProcessLoop 阅读全文

posted @ 2018-03-08 17:47 yimison 阅读(426) 评论(0) 推荐(0)

spark streaming 程序设置jvm参数

摘要：spark streaming 程序设置jvm参数 spark streaming 程序设置jvm参数,比如添加jconsole 远程连接参数：完整例子阅读全文

posted @ 2018-03-07 18:41 yimison 阅读(317) 评论(0) 推荐(0)

Continuously INFO JobScheduler:59 - Added jobs for time *** ms, in my Spark Standalone Cluster

摘要：为什么spark streaming 程序一直打印Added jobs for time *** ms 而不执行job 问题截图：答案截图： stackoverflow 上面的答案:https://stackoverflow.com/questions/36281665/continuously- 阅读全文

posted @ 2018-02-27 22:00 yimison 阅读(654) 评论(0) 推荐(0)

spark 免密码登录- ssh 指定非22端口

摘要：vi /etc/profile 在profile 文件最后一行加入命令： export SPARK_SSH_OPTS="-p 7315" #注：7315 是ssh 端口阅读全文

posted @ 2018-01-23 15:33 yimison 阅读(499) 评论(0) 推荐(0)

Spark standalone HA

摘要：Spark standalone HA 配置Spark standalone HA 主机：node1,node2,node3 master: node1,node2 slave:node2,node3 修改配置文件： node1,node3: spark-env.sh export SPARK_MA 阅读全文

posted @ 2018-01-05 16:21 yimison 阅读(199) 评论(0) 推荐(0)

spark 性能优化指南

摘要：Spark性能优化指南——高级篇李雪蕤 ·2016-05-12 14:47 前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的阅读全文

posted @ 2018-01-04 17:35 yimison 阅读(303) 评论(0) 推荐(0)

spark 体验点滴- executor 数量和task 并行数

摘要：一.指定spark executor 数量的公式 executor 数量 = spark.cores.max/spark.executor.cores spark.cores.max 是指你的spark程序需要的总核数 spark.executor.cores 是指每个executor需要的核数参阅读全文

posted @ 2018-01-04 14:49 yimison 阅读(10039) 评论(0) 推荐(0)

spark 体验点滴-client 与 cluster 部署

摘要：Spark运行模式：cluster与client 一. 部署模式原理 When run SparkSubmit --class [mainClass], SparkSubmit will call a childMainClass which is 1. client mode, childMain 阅读全文

posted @ 2017-12-12 16:03 yimison 阅读(2284) 评论(0) 推荐(0)

随笔分类 - spark

公告