随笔分类 -  Spark

上一页 1 2 3 下一页
Spark on yarn配置项说明与优化整理
摘要:配置于spark-default.conf 1. #spark.yarn.applicationMaster.waitTries 5 用于applicationMaster等待Spark master的次数以及SparkContext初始化尝试的次数 (一般不用设置)2.spark.yarn.am... 阅读全文
posted @ 2015-12-05 11:36 松伯 阅读(9759) 评论(0) 推荐(1)
Spark读写Hbase中的数据
摘要:def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("local").setAppName("cocapp").set("spark.kryo.registrator", classOf[HBas... 阅读全文
posted @ 2015-12-02 21:35 松伯 阅读(2710) 评论(8) 推荐(0)
sparkStreaming与Kafka整合
摘要:createStream那几个参数折腾了我好久。。网上都是一带而过,最终才搞懂..关于sparkStreaming的还是太少,最终尝试成功。。。首先启动zookeeper./bin/zookeeper-server-start.sh config/zookeeper.properties &启动ka... 阅读全文
posted @ 2015-11-28 21:41 松伯 阅读(1291) 评论(0) 推荐(0)
spark RDD transformation与action函数整理
摘要:1.创建RDDval lines = sc.parallelize(List("pandas","i like pandas"))2.加载本地文件到RDDval linesRDD = sc.textFile("yangsy.txt")3.过滤 filter 需要注意的是 filter并不会在原有RD... 阅读全文
posted @ 2015-11-28 13:30 松伯 阅读(2017) 评论(0) 推荐(0)
spark1.4加载mysql数据 创建Dataframe及join操作连接方法问题
摘要:首先我们使用新的API方法连接mysql加载数据 创建DFimport org.apache.spark.sql.DataFrameimport org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.sql.{SaveM... 阅读全文
posted @ 2015-11-19 20:35 松伯 阅读(2551) 评论(0) 推荐(0)
SparkStreaming入门及例子
摘要:看书大概了解了下Streaming的原理,但是木有动过手啊。。。万事开头难啊,一个wordcount 2小时怎么都运行不出结果。是我太蠢了,好了言归正传。SparkStreaming是一个批处理的流式计算框架,适合处理实时数据与历史数据混合处理的场景(比如,你用streaming将实时数据读入处理,... 阅读全文
posted @ 2015-11-14 14:51 松伯 阅读(1057) 评论(0) 推荐(0)
spark IDEA开发环境搭建及运行问题
摘要:下图是例子:还用说么,引入相关jar包(等下再一一说明) 包括scala,spark-assembly-1.4.1-hadoop2.5.0-cdh5.2.1.jar(按照你的spark和hadoop版本),还有在spark的lib下datanucleus的jar,mysql的数据源连接,这都是必须的... 阅读全文
posted @ 2015-11-13 00:16 松伯 阅读(576) 评论(0) 推荐(0)
Spark1.4启动spark-shell时initializing失败
摘要:错误信息如下:5/11/03 16:48:15 INFO spark.SparkContext: Running Spark version 1.4.115/11/03 16:48:15 WARN spark.SparkConf: In Spark 1.0 and later spark.local... 阅读全文
posted @ 2015-11-03 17:06 松伯 阅读(7040) 评论(0) 推荐(0)
Spark 1.4连接mysql诡异的问题及解决
摘要:在spark-default.conf文件中明明配置了mysql的数据源连接随后启动spark-shell 执行如下测试代码:import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode,... 阅读全文
posted @ 2015-10-26 11:27 松伯 阅读(1086) 评论(0) 推荐(0)
spark on hive 配置hive的metastore为mysql
摘要:hive.metastore.urisThrift uri for the remote metastore. Used by metastore client to connect to remote metastore.javax.jdo.option.ConnectionURLjdbc:mys... 阅读全文
posted @ 2015-10-24 01:41 松伯 阅读(614) 评论(2) 推荐(0)
Hive架构及Hive On Spark
摘要:Hive的所有数据都存在HDFS中.(1)Table:每个表都对应在HDFS中的目录下,数据是经过序列化后存储在该目录中。同时Hive也支持表中的数据存储在其他类型的文件系统中,如NFS或本地文件系统。(2)Partition(分区):Hive中的分区类似于RDBMS中的索引,每个Partition... 阅读全文
posted @ 2015-10-23 16:10 松伯 阅读(1551) 评论(0) 推荐(0)
Spark作业调度
摘要:Spark在任务提交时,主要存在于Driver和Executor的两个节点.(1)Driver的作用: 用于将所有要处理的RDD的操作转化为DAG,并且根据RDD DAG将JBO分割为多个Stage,最后生成相应的task,分发到各个Executor执行.流程:sc.runJob -> DAGS... 阅读全文
posted @ 2015-10-23 00:21 松伯 阅读(587) 评论(0) 推荐(0)
最最简单的~WordCount¬
摘要:sc.textFile("hdfs://....").flatMap(line =>line.split(" ")).map(w =>(w,1)).reduceByKey(_+_).foreach(println)不使用reduceByKeysc.textFile("hdfs://....").fl... 阅读全文
posted @ 2015-10-21 23:36 松伯 阅读(283) 评论(0) 推荐(0)
SparkSQL的解析详解
摘要:SparkSQL继承自Hive的接口,由于hive是基于MapReduce进行计算的,在计算过程中大量的中间数据要落地于磁盘,从而消耗了大量的I/O,降低了运行的效率,从而基于内存运算的SparkSQL应运而生。 首先说下传统数据库的解析,传统数据库的解析过程是按Rusult、Data Sou... 阅读全文
posted @ 2015-10-14 00:28 松伯 阅读(1208) 评论(0) 推荐(0)
spark transformation与action操作函数
摘要:一、Transformationmap(func) 返回一个新的分布式数据集,由每个原元素经过函数处理后的新元素组成filter(func) 返回一个新的数据集,经过fun函数处理后返回值为true的原元素组成flatMap(func) 类似于map,但每个输入元素会被映射为0个或多个输出元素map... 阅读全文
posted @ 2015-10-14 00:22 松伯 阅读(481) 评论(0) 推荐(0)
spark基础练习(未完)
摘要:1、filterval rdd = sc.parallelize(List(1,2,3,4,5))val mappedRDD = rdd.map(2*_)mappedRDD.collectval filteredRDD = mappedRdd.filter(_>4)filteredRDD.colle... 阅读全文
posted @ 2015-10-14 00:06 松伯 阅读(458) 评论(0) 推荐(0)
Spark工程开发常用函数与方法(Scala语言)
摘要:import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode, DataFrame}import scala.collection.mutable.ArrayBufferimport ma... 阅读全文
posted @ 2015-10-10 17:45 松伯 阅读(708) 评论(0) 推荐(0)
hadoop-spark-hive-hbase配置相关说明
摘要:1. zookeeper配置cp app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo_sample.cfg app/ochadoop-och3.0.0-SNAPSHOT/z... 阅读全文
posted @ 2015-10-10 16:24 松伯 阅读(634) 评论(0) 推荐(0)
Shuffle相关分析
摘要:Shuffle描述是一个过程,表现出的是多对多的依赖关系。Shuffle是连接map阶段和Reduce阶段的纽带,每个Reduce Task都会从Map Task产生的数据里读取其中的一片数据。Shuffle通常分为两个部分:Map阶段的数据准备和Reduce阶段的数据副本。 Map阶段根据Redu... 阅读全文
posted @ 2015-10-10 16:16 松伯 阅读(289) 评论(0) 推荐(0)
Spark运行流程概述
摘要:Application 指用户编写的Spark应用程序,其中包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码。Driver Spark中的Driver即运行上述Application的main()函数并创建SparkContext.创建的目的是为了初始化Spark的... 阅读全文
posted @ 2015-10-10 16:15 松伯 阅读(644) 评论(0) 推荐(0)

上一页 1 2 3 下一页