Spark - 随笔分类(第2页) - 松伯

Spark on yarn配置项说明与优化整理

摘要：配置于spark-default.conf 1. #spark.yarn.applicationMaster.waitTries 5 用于applicationMaster等待Spark master的次数以及SparkContext初始化尝试的次数 (一般不用设置)2.spark.yarn.am... 阅读全文

posted @ 2015-12-05 11:36 松伯阅读(9759) 评论(0) 推荐(1)

Spark读写Hbase中的数据

摘要：def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("local").setAppName("cocapp").set("spark.kryo.registrator", classOf[HBas... 阅读全文

posted @ 2015-12-02 21:35 松伯阅读(2710) 评论(8) 推荐(0)

sparkStreaming与Kafka整合

摘要：createStream那几个参数折腾了我好久。。网上都是一带而过,最终才搞懂..关于sparkStreaming的还是太少，最终尝试成功。。。首先启动zookeeper./bin/zookeeper-server-start.sh config/zookeeper.properties &启动ka... 阅读全文

posted @ 2015-11-28 21:41 松伯阅读(1291) 评论(0) 推荐(0)

spark RDD transformation与action函数整理

摘要：1.创建RDDval lines = sc.parallelize(List("pandas","i like pandas"))2.加载本地文件到RDDval linesRDD = sc.textFile("yangsy.txt")3.过滤 filter 需要注意的是 filter并不会在原有RD... 阅读全文

posted @ 2015-11-28 13:30 松伯阅读(2017) 评论(0) 推荐(0)

spark1.4加载mysql数据创建Dataframe及join操作连接方法问题

摘要：首先我们使用新的API方法连接mysql加载数据创建DFimport org.apache.spark.sql.DataFrameimport org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.sql.{SaveM... 阅读全文

posted @ 2015-11-19 20:35 松伯阅读(2551) 评论(0) 推荐(0)

SparkStreaming入门及例子

摘要：看书大概了解了下Streaming的原理，但是木有动过手啊。。。万事开头难啊，一个wordcount 2小时怎么都运行不出结果。是我太蠢了，好了言归正传。SparkStreaming是一个批处理的流式计算框架，适合处理实时数据与历史数据混合处理的场景（比如，你用streaming将实时数据读入处理，... 阅读全文

posted @ 2015-11-14 14:51 松伯阅读(1057) 评论(0) 推荐(0)

spark IDEA开发环境搭建及运行问题

摘要：下图是例子:还用说么，引入相关jar包（等下再一一说明) 包括scala，spark-assembly-1.4.1-hadoop2.5.0-cdh5.2.1.jar(按照你的spark和hadoop版本)，还有在spark的lib下datanucleus的jar，mysql的数据源连接，这都是必须的... 阅读全文

posted @ 2015-11-13 00:16 松伯阅读(576) 评论(0) 推荐(0)

Spark1.4启动spark-shell时initializing失败

摘要：错误信息如下:5/11/03 16:48:15 INFO spark.SparkContext: Running Spark version 1.4.115/11/03 16:48:15 WARN spark.SparkConf: In Spark 1.0 and later spark.local... 阅读全文

posted @ 2015-11-03 17:06 松伯阅读(7040) 评论(0) 推荐(0)

Spark 1.4连接mysql诡异的问题及解决

摘要：在spark-default.conf文件中明明配置了mysql的数据源连接随后启动spark-shell 执行如下测试代码：import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode,... 阅读全文

posted @ 2015-10-26 11:27 松伯阅读(1086) 评论(0) 推荐(0)

spark on hive 配置hive的metastore为mysql

摘要：hive.metastore.urisThrift uri for the remote metastore. Used by metastore client to connect to remote metastore.javax.jdo.option.ConnectionURLjdbc:mys... 阅读全文

posted @ 2015-10-24 01:41 松伯阅读(614) 评论(2) 推荐(0)

Hive架构及Hive On Spark

摘要：Hive的所有数据都存在HDFS中.(1)Table:每个表都对应在HDFS中的目录下，数据是经过序列化后存储在该目录中。同时Hive也支持表中的数据存储在其他类型的文件系统中，如NFS或本地文件系统。(2)Partition(分区):Hive中的分区类似于RDBMS中的索引，每个Partition... 阅读全文

posted @ 2015-10-23 16:10 松伯阅读(1551) 评论(0) 推荐(0)

Spark作业调度

摘要：Spark在任务提交时，主要存在于Driver和Executor的两个节点.(1)Driver的作用: 用于将所有要处理的RDD的操作转化为DAG，并且根据RDD DAG将JBO分割为多个Stage,最后生成相应的task,分发到各个Executor执行.流程:sc.runJob -> DAGS... 阅读全文

posted @ 2015-10-23 00:21 松伯阅读(587) 评论(0) 推荐(0)

最最简单的~WordCount¬

摘要：sc.textFile("hdfs://....").flatMap(line =>line.split(" ")).map(w =>(w,1)).reduceByKey(_+_).foreach(println)不使用reduceByKeysc.textFile("hdfs://....").fl... 阅读全文

posted @ 2015-10-21 23:36 松伯阅读(283) 评论(0) 推荐(0)

SparkSQL的解析详解

摘要：SparkSQL继承自Hive的接口，由于hive是基于MapReduce进行计算的，在计算过程中大量的中间数据要落地于磁盘，从而消耗了大量的I/O，降低了运行的效率，从而基于内存运算的SparkSQL应运而生。首先说下传统数据库的解析，传统数据库的解析过程是按Rusult、Data Sou... 阅读全文

posted @ 2015-10-14 00:28 松伯阅读(1208) 评论(0) 推荐(0)

spark transformation与action操作函数

摘要：一、Transformationmap(func) 返回一个新的分布式数据集，由每个原元素经过函数处理后的新元素组成filter(func) 返回一个新的数据集，经过fun函数处理后返回值为true的原元素组成flatMap(func) 类似于map,但每个输入元素会被映射为0个或多个输出元素map... 阅读全文

posted @ 2015-10-14 00:22 松伯阅读(481) 评论(0) 推荐(0)

spark基础练习（未完)

摘要：1、filterval rdd = sc.parallelize(List(1,2,3,4,5))val mappedRDD = rdd.map(2*_)mappedRDD.collectval filteredRDD = mappedRdd.filter(_>4)filteredRDD.colle... 阅读全文

posted @ 2015-10-14 00:06 松伯阅读(458) 评论(0) 推荐(0)

Spark工程开发常用函数与方法(Scala语言)

摘要：import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode, DataFrame}import scala.collection.mutable.ArrayBufferimport ma... 阅读全文

posted @ 2015-10-10 17:45 松伯阅读(708) 评论(0) 推荐(0)

hadoop-spark-hive-hbase配置相关说明

摘要：1. zookeeper配置cp app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo_sample.cfg app/ochadoop-och3.0.0-SNAPSHOT/z... 阅读全文

posted @ 2015-10-10 16:24 松伯阅读(634) 评论(0) 推荐(0)

Shuffle相关分析

摘要：Shuffle描述是一个过程，表现出的是多对多的依赖关系。Shuffle是连接map阶段和Reduce阶段的纽带，每个Reduce Task都会从Map Task产生的数据里读取其中的一片数据。Shuffle通常分为两个部分:Map阶段的数据准备和Reduce阶段的数据副本。 Map阶段根据Redu... 阅读全文

posted @ 2015-10-10 16:16 松伯阅读(289) 评论(0) 推荐(0)

Spark运行流程概述

摘要：Application 指用户编写的Spark应用程序，其中包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码。Driver Spark中的Driver即运行上述Application的main()函数并创建SparkContext.创建的目的是为了初始化Spark的... 阅读全文

posted @ 2015-10-10 16:15 松伯阅读(644) 评论(0) 推荐(0)

随笔分类 - Spark