摘要:启动spark-sql执行sql时,在监控页面中看到该Application的Name是SparkSQL:hadoop000(其中hadoop000是测试机器的hostname),就有个想法,修改下该application的name,在spark-sql --help中看到--name NAME的参...
阅读全文
随笔分类 - Spark
摘要:Spark history Server产生背景以standalone运行模式为例,在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息;但该WEBUI随着Application的完成(成功/失败)而关闭,也就是说,Spark Application...
阅读全文
摘要:使用java开发一个helloworld级别UDF,打包成udf.jar,存放在/home/hadoop/lib下,代码如下:package com.luogankun.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class HelloU...
阅读全文
摘要:启动ThriftJDBCServer:cd $SPARK_HOME/sbinstart-thriftserver.sh &使用jdbc访问ThriftJDBCServer代码段:package com.luogankun.spark.sqlimport java.sql.DriverManageri...
阅读全文
摘要:Thrift JDBC Server描述Thrift JDBC Server使用的是HIVE0.12的HiveServer2实现。能够使用Spark或者hive0.12版本的beeline脚本与JDBC Server进行交互使用。Thrift JDBC Server默认监听端口是10000。使用Th...
阅读全文
摘要:Spark SQL CLI描述Spark SQL CLI的引入使得在SparkSQL中通过hive metastore就可以直接对hive进行查询更加方便;当前版本中还不能使用Spark SQL CLI与ThriftServer进行交互。使用Spark SQL CLI前需要注意:1、将hive-si...
阅读全文
摘要:spark自带的example中就有streaming结合kafka使用的案例:$SPARK_HOME/examples/src/main/scala/org/apache/spark/examples/streaming/KafkaWordCount.scala使用方法参见代码描述:Usage: ...
阅读全文
摘要:使用版本:kafka_2.10-0.8.1.1安装:tar -zxvf kafka_2.10-0.8.1.1.tgz -C ~/app/添加环境变量:.bash_profileexport KAFKA_HOME=/home/spark/app/kafka_2.10-0.8.1.1export PAT...
阅读全文
摘要:在Spark中,每一个RDD是对于数据集在某一状态下的表现形式,比如说:map、filter、group by等都算一次操作,这个状态有可能是从前一状态转换而来的;因此换句话说一个RDD可能与之前的RDD(s)有依赖关系;RDD之间存在依赖关系;根据依赖关系的不同,可以将RDD分成两种不同的类型:宽...
阅读全文
摘要:记录下提交过程,易忘供查询用。内容源自田总的分享。1)在github上fork一份最新的master代码2)用社区代码库创建本地仓库git clone https://github.com/apache/spark test-spark3)加入自己的github代码库cd test-sparkgit...
阅读全文
摘要:private case class MemoryEntry(value: Any, size: Long, deserialized: Boolean)class MemoryStore(blockManager: BlockManager, maxMemory: Long)extends Blo...
阅读全文
摘要:BlockManager中存储block的流程: doPut()方法 入参:blockId, data, level, tellMaster1)为block创建BlockInfo并加锁使其不能被其他线程访问;2)按照block的存储级别:useMemory, useOffHeap, useDisk进...
阅读全文
摘要:一、集群启动过程--启动Master$SPARK_HOME/sbin/start-master.shstart-master.sh脚本关键内容:spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip $SPARK_MAST...
阅读全文
摘要:Build/Rebuild Project之后
阅读全文
摘要:为什么要使用YARN?数据共享、资源利用率、更方便的管理集群等。详情参见:http://www.cnblogs.com/luogankun/p/3887019.htmlSpark YARN版本编译编译hadoop对应的支持YARN的Spark版本export MAVEN_OPTS="-Xmx2g -...
阅读全文
摘要:经过前面文章的SparkContext、DAGScheduler、TaskScheduler分析,再从总体上了解Spark Job的调度流程1、SparkContext将job的RDD DAG图提交给DAGScheduler;2、DAGScheduler将job分解成Stage DAG,将每个Sta...
阅读全文
摘要:TaskScheduler概述:TaskScheduler是一个可插拔任务调度接口,通过不同的SchedulerBackend进行任务的调度。主要功能如下:1、一个TaskScheduler只为一个SparkContext服务,接收DAGScheduler提交过来的一组组的TaskSet;2、Tas...
阅读全文
摘要:1、文件系统本地性 第一次运行时数据不在内存中,需要从HDFS上取,任务最好运行在数据所在的节点上;2、内存本地性 第二次运行,数据已经在内存中,所有任务最好运行在该数据所在内存的节点上;3、LRU置换 如果数据只缓存在内存中而并没有缓存到磁盘上,此时数据被置换出内存,则从HDFS上读取; ...
阅读全文
摘要:1、构建Spark Application运行环境;在Driver Program中新建SparkContext(包含sparkcontext的程序称为Driver Program);Spark Application运行的表现方式为:在集群上运行着一组独立的executor进程,这些进程由spar...
阅读全文
浙公网安备 33010602011771号