Spark - 随笔分类(第2页) - 瞌睡中的葡萄虎

spark-sql启动后在监控页面中显示的Application Name为SparkSQL::xxxx的疑问

摘要：启动spark-sql执行sql时，在监控页面中看到该Application的Name是SparkSQL:hadoop000(其中hadoop000是测试机器的hostname)，就有个想法，修改下该application的name，在spark-sql --help中看到--name NAME的参... 阅读全文

posted @ 2014-12-01 14:35 瞌睡中的葡萄虎阅读(1121) 评论(0) 推荐(0)

Spark History Server配置使用

摘要：Spark history Server产生背景以standalone运行模式为例，在运行Spark Application的时候，Spark会提供一个WEBUI列出应用程序的运行时信息；但该WEBUI随着Application的完成(成功/失败)而关闭，也就是说，Spark Application... 阅读全文

posted @ 2014-09-19 15:52 瞌睡中的葡萄虎阅读(29520) 评论(2) 推荐(4)

SparkSQL使用之如何使用UDF

摘要：使用java开发一个helloworld级别UDF，打包成udf.jar，存放在/home/hadoop/lib下，代码如下：package com.luogankun.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class HelloU... 阅读全文

posted @ 2014-09-13 18:42 瞌睡中的葡萄虎阅读(7030) 评论(0) 推荐(0)

SparkSQL使用之JDBC代码访问Thrift JDBC Server

摘要：启动ThriftJDBCServer:cd $SPARK_HOME/sbinstart-thriftserver.sh &使用jdbc访问ThriftJDBCServer代码段：package com.luogankun.spark.sqlimport java.sql.DriverManageri... 阅读全文

posted @ 2014-09-13 18:07 瞌睡中的葡萄虎阅读(1228) 评论(0) 推荐(0)

SparkSQL使用之Thrift JDBC server

摘要：Thrift JDBC Server描述Thrift JDBC Server使用的是HIVE0.12的HiveServer2实现。能够使用Spark或者hive0.12版本的beeline脚本与JDBC Server进行交互使用。Thrift JDBC Server默认监听端口是10000。使用Th... 阅读全文

posted @ 2014-09-13 17:00 瞌睡中的葡萄虎阅读(11789) 评论(0) 推荐(0)

SparkSQL使用之Spark SQL CLI

摘要：Spark SQL CLI描述Spark SQL CLI的引入使得在SparkSQL中通过hive metastore就可以直接对hive进行查询更加方便；当前版本中还不能使用Spark SQL CLI与ThriftServer进行交互。使用Spark SQL CLI前需要注意：1、将hive-si... 阅读全文

posted @ 2014-09-13 16:41 瞌睡中的葡萄虎阅读(11205) 评论(0) 推荐(1)

SparkStreaming结合Kafka使用

摘要：spark自带的example中就有streaming结合kafka使用的案例：$SPARK_HOME/examples/src/main/scala/org/apache/spark/examples/streaming/KafkaWordCount.scala使用方法参见代码描述：Usage: ... 阅读全文

posted @ 2014-09-10 16:18 瞌睡中的葡萄虎阅读(1460) 评论(0) 推荐(0)

Kafka单机版环境搭建

摘要：使用版本：kafka_2.10-0.8.1.1安装：tar -zxvf kafka_2.10-0.8.1.1.tgz -C ~/app/添加环境变量：.bash_profileexport KAFKA_HOME=/home/spark/app/kafka_2.10-0.8.1.1export PAT... 阅读全文

posted @ 2014-09-10 15:59 瞌睡中的葡萄虎阅读(1260) 评论(0) 推荐(0)

Spark分析之Dependency

摘要：在Spark中，每一个RDD是对于数据集在某一状态下的表现形式，比如说：map、filter、group by等都算一次操作，这个状态有可能是从前一状态转换而来的；因此换句话说一个RDD可能与之前的RDD(s)有依赖关系；RDD之间存在依赖关系；根据依赖关系的不同，可以将RDD分成两种不同的类型：宽... 阅读全文

posted @ 2014-08-21 15:57 瞌睡中的葡萄虎阅读(1329) 评论(0) 推荐(1)

Github提交Spark代码

摘要：记录下提交过程，易忘供查询用。内容源自田总的分享。1）在github上fork一份最新的master代码2）用社区代码库创建本地仓库git clone https://github.com/apache/spark test-spark3）加入自己的github代码库cd test-sparkgit... 阅读全文

posted @ 2014-08-21 15:38 瞌睡中的葡萄虎阅读(1013) 评论(0) 推荐(0)

Spark分析之MemoryStore

摘要：private case class MemoryEntry(value: Any, size: Long, deserialized: Boolean)class MemoryStore(blockManager: BlockManager, maxMemory: Long)extends Blo... 阅读全文

posted @ 2014-08-20 16:31 瞌睡中的葡萄虎阅读(933) 评论(0) 推荐(0)

Spark分析之BlockManager

摘要：BlockManager中存储block的流程： doPut()方法入参：blockId, data, level, tellMaster1）为block创建BlockInfo并加锁使其不能被其他线程访问；2）按照block的存储级别：useMemory, useOffHeap, useDisk进... 阅读全文

posted @ 2014-08-20 16:27 瞌睡中的葡萄虎阅读(1216) 评论(0) 推荐(0)

Spark分析之Standalone运行过程分析

摘要：一、集群启动过程--启动Master$SPARK_HOME/sbin/start-master.shstart-master.sh脚本关键内容：spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip $SPARK_MAST... 阅读全文

posted @ 2014-08-14 16:54 瞌睡中的葡萄虎阅读(1140) 评论(0) 推荐(0)

IDEA编译Flume Sink通不过解决方法

摘要：Build/Rebuild Project之后阅读全文

posted @ 2014-08-11 17:01 瞌睡中的葡萄虎阅读(860) 评论(0) 推荐(0)

Spark On YARN

摘要：为什么要使用YARN?数据共享、资源利用率、更方便的管理集群等。详情参见：http://www.cnblogs.com/luogankun/p/3887019.htmlSpark YARN版本编译编译hadoop对应的支持YARN的Spark版本export MAVEN_OPTS="-Xmx2g -... 阅读全文

posted @ 2014-08-03 16:04 瞌睡中的葡萄虎阅读(1631) 评论(0) 推荐(0)

Spark分析之Job Scheduling Process

摘要：经过前面文章的SparkContext、DAGScheduler、TaskScheduler分析，再从总体上了解Spark Job的调度流程1、SparkContext将job的RDD DAG图提交给DAGScheduler；2、DAGScheduler将job分解成Stage DAG，将每个Sta... 阅读全文

posted @ 2014-08-02 02:04 瞌睡中的葡萄虎阅读(642) 评论(0) 推荐(0)

Spark分析之TaskScheduler

摘要：TaskScheduler概述：TaskScheduler是一个可插拔任务调度接口，通过不同的SchedulerBackend进行任务的调度。主要功能如下：1、一个TaskScheduler只为一个SparkContext服务，接收DAGScheduler提交过来的一组组的TaskSet；2、Tas... 阅读全文

posted @ 2014-08-02 00:59 瞌睡中的葡萄虎阅读(1388) 评论(2) 推荐(0)

Spark数据本地性

摘要：1、文件系统本地性第一次运行时数据不在内存中，需要从HDFS上取，任务最好运行在数据所在的节点上；2、内存本地性第二次运行，数据已经在内存中，所有任务最好运行在该数据所在内存的节点上；3、LRU置换如果数据只缓存在内存中而并没有缓存到磁盘上，此时数据被置换出内存，则从HDFS上读取； ... 阅读全文

posted @ 2014-08-02 00:57 瞌睡中的葡萄虎阅读(744) 评论(0) 推荐(0)

Spark分析之启动流程

摘要：阅读全文

posted @ 2014-08-01 23:59 瞌睡中的葡萄虎阅读(247) 评论(0) 推荐(0)

Spark运行架构

摘要：1、构建Spark Application运行环境；在Driver Program中新建SparkContext（包含sparkcontext的程序称为Driver Program）；Spark Application运行的表现方式为：在集群上运行着一组独立的executor进程，这些进程由spar... 阅读全文

posted @ 2014-08-01 23:57 瞌睡中的葡萄虎阅读(660) 评论(0) 推荐(0)

瞌睡中的葡萄虎

公告

随笔分类 - Spark