Spark on yarn配置项说明与优化整理
摘要:配置于spark-default.conf 1. #spark.yarn.applicationMaster.waitTries 5 用于applicationMaster等待Spark master的次数以及SparkContext初始化尝试的次数 (一般不用设置)2.spark.yarn.am...
阅读全文
posted @
2015-12-05 11:36
松伯
阅读(9759)
推荐(1)
Spark读写Hbase中的数据
摘要:def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("local").setAppName("cocapp").set("spark.kryo.registrator", classOf[HBas...
阅读全文
posted @
2015-12-02 21:35
松伯
阅读(2710)
推荐(0)
sparkStreaming与Kafka整合
摘要:createStream那几个参数折腾了我好久。。网上都是一带而过,最终才搞懂..关于sparkStreaming的还是太少,最终尝试成功。。。首先启动zookeeper./bin/zookeeper-server-start.sh config/zookeeper.properties &启动ka...
阅读全文
posted @
2015-11-28 21:41
松伯
阅读(1291)
推荐(0)
spark RDD transformation与action函数整理
摘要:1.创建RDDval lines = sc.parallelize(List("pandas","i like pandas"))2.加载本地文件到RDDval linesRDD = sc.textFile("yangsy.txt")3.过滤 filter 需要注意的是 filter并不会在原有RD...
阅读全文
posted @
2015-11-28 13:30
松伯
阅读(2017)
推荐(0)
spark1.4加载mysql数据 创建Dataframe及join操作连接方法问题
摘要:首先我们使用新的API方法连接mysql加载数据 创建DFimport org.apache.spark.sql.DataFrameimport org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.sql.{SaveM...
阅读全文
posted @
2015-11-19 20:35
松伯
阅读(2551)
推荐(0)
SparkStreaming入门及例子
摘要:看书大概了解了下Streaming的原理,但是木有动过手啊。。。万事开头难啊,一个wordcount 2小时怎么都运行不出结果。是我太蠢了,好了言归正传。SparkStreaming是一个批处理的流式计算框架,适合处理实时数据与历史数据混合处理的场景(比如,你用streaming将实时数据读入处理,...
阅读全文
posted @
2015-11-14 14:51
松伯
阅读(1057)
推荐(0)
spark IDEA开发环境搭建及运行问题
摘要:下图是例子:还用说么,引入相关jar包(等下再一一说明) 包括scala,spark-assembly-1.4.1-hadoop2.5.0-cdh5.2.1.jar(按照你的spark和hadoop版本),还有在spark的lib下datanucleus的jar,mysql的数据源连接,这都是必须的...
阅读全文
posted @
2015-11-13 00:16
松伯
阅读(576)
推荐(0)
Spark1.4启动spark-shell时initializing失败
摘要:错误信息如下:5/11/03 16:48:15 INFO spark.SparkContext: Running Spark version 1.4.115/11/03 16:48:15 WARN spark.SparkConf: In Spark 1.0 and later spark.local...
阅读全文
posted @
2015-11-03 17:06
松伯
阅读(7040)
推荐(0)
Spark 1.4连接mysql诡异的问题及解决
摘要:在spark-default.conf文件中明明配置了mysql的数据源连接随后启动spark-shell 执行如下测试代码:import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode,...
阅读全文
posted @
2015-10-26 11:27
松伯
阅读(1086)
推荐(0)
spark on hive 配置hive的metastore为mysql
摘要:hive.metastore.urisThrift uri for the remote metastore. Used by metastore client to connect to remote metastore.javax.jdo.option.ConnectionURLjdbc:mys...
阅读全文
posted @
2015-10-24 01:41
松伯
阅读(614)
推荐(0)
Hive架构及Hive On Spark
摘要:Hive的所有数据都存在HDFS中.(1)Table:每个表都对应在HDFS中的目录下,数据是经过序列化后存储在该目录中。同时Hive也支持表中的数据存储在其他类型的文件系统中,如NFS或本地文件系统。(2)Partition(分区):Hive中的分区类似于RDBMS中的索引,每个Partition...
阅读全文
posted @
2015-10-23 16:10
松伯
阅读(1551)
推荐(0)
Spark作业调度
摘要:Spark在任务提交时,主要存在于Driver和Executor的两个节点.(1)Driver的作用: 用于将所有要处理的RDD的操作转化为DAG,并且根据RDD DAG将JBO分割为多个Stage,最后生成相应的task,分发到各个Executor执行.流程:sc.runJob -> DAGS...
阅读全文
posted @
2015-10-23 00:21
松伯
阅读(587)
推荐(0)
最最简单的~WordCount¬
摘要:sc.textFile("hdfs://....").flatMap(line =>line.split(" ")).map(w =>(w,1)).reduceByKey(_+_).foreach(println)不使用reduceByKeysc.textFile("hdfs://....").fl...
阅读全文
posted @
2015-10-21 23:36
松伯
阅读(283)
推荐(0)
SparkSQL的解析详解
摘要:SparkSQL继承自Hive的接口,由于hive是基于MapReduce进行计算的,在计算过程中大量的中间数据要落地于磁盘,从而消耗了大量的I/O,降低了运行的效率,从而基于内存运算的SparkSQL应运而生。 首先说下传统数据库的解析,传统数据库的解析过程是按Rusult、Data Sou...
阅读全文
posted @
2015-10-14 00:28
松伯
阅读(1208)
推荐(0)
spark transformation与action操作函数
摘要:一、Transformationmap(func) 返回一个新的分布式数据集,由每个原元素经过函数处理后的新元素组成filter(func) 返回一个新的数据集,经过fun函数处理后返回值为true的原元素组成flatMap(func) 类似于map,但每个输入元素会被映射为0个或多个输出元素map...
阅读全文
posted @
2015-10-14 00:22
松伯
阅读(481)
推荐(0)
spark基础练习(未完)
摘要:1、filterval rdd = sc.parallelize(List(1,2,3,4,5))val mappedRDD = rdd.map(2*_)mappedRDD.collectval filteredRDD = mappedRdd.filter(_>4)filteredRDD.colle...
阅读全文
posted @
2015-10-14 00:06
松伯
阅读(458)
推荐(0)
Spark工程开发常用函数与方法(Scala语言)
摘要:import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode, DataFrame}import scala.collection.mutable.ArrayBufferimport ma...
阅读全文
posted @
2015-10-10 17:45
松伯
阅读(708)
推荐(0)
hadoop-spark-hive-hbase配置相关说明
摘要:1. zookeeper配置cp app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo_sample.cfg app/ochadoop-och3.0.0-SNAPSHOT/z...
阅读全文
posted @
2015-10-10 16:24
松伯
阅读(634)
推荐(0)
Shuffle相关分析
摘要:Shuffle描述是一个过程,表现出的是多对多的依赖关系。Shuffle是连接map阶段和Reduce阶段的纽带,每个Reduce Task都会从Map Task产生的数据里读取其中的一片数据。Shuffle通常分为两个部分:Map阶段的数据准备和Reduce阶段的数据副本。 Map阶段根据Redu...
阅读全文
posted @
2015-10-10 16:16
松伯
阅读(289)
推荐(0)
Spark运行流程概述
摘要:Application 指用户编写的Spark应用程序,其中包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码。Driver Spark中的Driver即运行上述Application的main()函数并创建SparkContext.创建的目的是为了初始化Spark的...
阅读全文
posted @
2015-10-10 16:15
松伯
阅读(644)
推荐(0)