随笔分类 -  Spark

摘要:实现步骤: 1)上传解压spark安装包 2)进入spark安装目录的conf目录 3)配置spark-env.sh文件 配置示例: #本机ip地址 SPARK_LOCAL_IP=hadoop01 #spark的shuffle中间过程会产生一些临时文件,此项指定的是其存放目录,不配置默认是在 /tm 阅读全文
posted @ 2019-08-08 19:20 virus丶舒 阅读(350) 评论(0) 推荐(0)
摘要:实现步骤: 1)安装和配置好JDK 2)上传和解压Spark安装包 3)进入Spark安装目录下的conf目录 复制conf spark-env.sh.template 文件为 spark-env.sh 在其中修改,增加如下内容: SPARK_LOCAL_IP=服务器IP地址 Spark单机模式启动 阅读全文
posted @ 2019-08-08 19:19 virus丶舒 阅读(2207) 评论(0) 推荐(0)
摘要:概述 SparkSql将RDD封装成一个DataFrame对象,这个对象类似于关系型数据库中的表。 创建DataFrame对象 DataFrame就相当于数据库的一张表。它是个只读的表,不能在运算过程再往里加元素。 RDD.toDF("列名") scala> val rdd = sc.paralle 阅读全文
posted @ 2019-08-08 19:14 virus丶舒 阅读(301) 评论(0) 推荐(0)
摘要:通过api使用sparksql 实现步骤: 1)打开scala IDE开发环境,创建一个scala工程 2)导入spark相关依赖jar包 3)创建包路径以object类 4)写代码 代码示意: package cn.tedu.sparksql import org.apache.spark.Spa 阅读全文
posted @ 2019-08-08 19:09 virus丶舒 阅读(614) 评论(0) 推荐(0)
摘要:写入HBase表代码示例: import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.hadoop.hbase.mapreduce.TableOutputFormat import 阅读全文
posted @ 2019-08-08 19:07 virus丶舒 阅读(1746) 评论(0) 推荐(0)
摘要:代码示例: import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.streaming.StreamingContext import org.apache.spar 阅读全文
posted @ 2019-08-08 19:05 virus丶舒 阅读(384) 评论(0) 推荐(0)
摘要:WordCount案例 案例一: import org.apache.spark.streaming._ val ssc = new StreamingContext(sc,Seconds(5)); val lines = ssc.textFileStream("file:///home/softw 阅读全文
posted @ 2019-08-08 19:04 virus丶舒 阅读(752) 评论(0) 推荐(0)
摘要:import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.Partitioner import org.apache.spark.HashPartitioner object Demo { def main(args: Array[String]): Uni... 阅读全文
posted @ 2019-08-08 17:22 virus丶舒 阅读(512) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2019-06-26 07:29 virus丶舒 阅读(105) 评论(0) 推荐(0)
摘要:一、测试或实验性质的本地运行模式 (单机) 该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上有没有问题。 其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程(该线程有1个core)。 指令示例: 1 阅读全文
posted @ 2019-06-24 16:02 virus丶舒 阅读(3994) 评论(0) 推荐(0)
摘要:概述 Shuffle是Spark Core比较复杂的模块,它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。 1)spark.shuffle.manager Spark 1.2.0官方版本支持两种方式的Shuffle,即Hash Based Shuffle和Sort 阅读全文
posted @ 2019-06-24 15:30 virus丶舒 阅读(1766) 评论(0) 推荐(0)
摘要:概述 Shuffle,翻译成中文就是洗牌。之所以需要Shuffle,还是因为具有某种共同特征的一类数据需要最终汇聚(aggregate)到一个计算节点上进行计算。这些数据分布在各个存储节点上并且由不同节点的计算单元处理。以最简单的Word Count为例,其中数据保存在Node1、Node2和Nod 阅读全文
posted @ 2019-06-24 15:24 virus丶舒 阅读(2503) 评论(0) 推荐(0)
摘要:概述 之前我们提到:Driver 的sc负责和Executor交互,完成任务的分配和调度,在底层,任务调度模块主要包含两大部分: 1)DAGScheduler 2)TaskScheduler 它们负责将用户提交的计算任务按照DAG划分为不同的阶段并且将不同阶段的计算任务提交到集群进行最终的计算。整个 阅读全文
posted @ 2019-06-24 15:23 virus丶舒 阅读(348) 评论(0) 推荐(0)
摘要:概述 为了更好地理解调度,我们先来鸟瞰一下集群模式下的Spark程序运行架构图。 1. Driver Program 用户编写的Spark程序称为Driver Program。每个Driver程序包含一个代表集群环境的SparkContext对象,程序的执行从Driver程序开始,所有操作执行结束后 阅读全文
posted @ 2019-06-24 15:10 virus丶舒 阅读(273) 评论(0) 推荐(0)
摘要:概述 相比Hadoop MapReduce来说,Spark计算具有巨大的性能优势,其中很大一部分原因是Spark对于内存的充分利用,以及提供的缓存机制。 RDD持久化(缓存) 持久化在早期被称作缓存(cache),但缓存一般指将内容放在内存中。虽然持久化操作在绝大部分情况下都是将RDD缓存在内存中, 阅读全文
posted @ 2019-06-19 06:38 virus丶舒 阅读(1994) 评论(0) 推荐(0)
摘要:概述 Shuffle是Spark Core比较复杂的模块,它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。 1)spark.shuffle.manager Spark 1.2.0官方版本支持两种方式的Shuffle,即Hash Based Shuffle和Sort 阅读全文
posted @ 2019-06-19 06:37 virus丶舒 阅读(261) 评论(0) 推荐(0)