随笔分类 -  Spark

摘要: 阅读全文
posted @ 2021-07-01 22:08 DaBai的黑屋 阅读(98) 评论(0) 推荐(0)
摘要:1.1.1.Executor进程专属 如图所示: 1.1.2. 支持多种资源管理器 如图所示: 1.1.3. Job提交就近原则 如图所示: 1.1.4. 移动程序而非移动数据的原则执行 如图所示: 阅读全文
posted @ 2019-09-11 00:35 DaBai的黑屋 阅读(469) 评论(0) 推荐(0)
摘要:1.1. Spark部署模式 Spark支持多种集群管理器(Cluster Manager),主要为: Master URL Meaning local 在本地运行,只有一个工作进程,无并行计算能力。 local[K] 在本地运行,有K个工作进程,通常设置K为机器的CPU核心数量。 local[*] 阅读全文
posted @ 2019-09-11 00:35 DaBai的黑屋 阅读(446) 评论(0) 推荐(0)
摘要:1.1.1.计算流程 1.1.2. 从代码构建DAG图 Spark program Val lines1 = sc.textFile(inputPath1).map(...).map(...) Val lines2 = sc.textFile(inputPath2).map(...) Val lin 阅读全文
posted @ 2019-09-11 00:34 DaBai的黑屋 阅读(781) 评论(0) 推荐(0)
摘要:1.1.1. Application/App:Spark应用程序 1.1.2. Driver:驱动程序 1.1.3. Cluster Manager:资源管理器 指的是在集群上获取资源的外部服务,常用的有: 如下图所示: 1.1.4. Worker:计算节点 集群中任何可以运行Application 阅读全文
posted @ 2019-09-11 00:33 DaBai的黑屋 阅读(411) 评论(0) 推荐(0)
摘要:1.1.1.读取Socket数据 ●准备工作 nc -lk 9999 hadoop spark sqoop hadoop spark hive hadoop ●代码演示: import org.apache.spark.SparkContext import org.apache.spark.sql 阅读全文
posted @ 2019-09-11 00:32 DaBai的黑屋 阅读(484) 评论(0) 推荐(0)
摘要:1.1.1.读取文本数据 spark应用可以监听某一个目录,而web服务在这个目录上实时产生日志文件,这样对于spark应用来说,日志文件就是实时数据 Structured Streaming支持的文件类型有text,csv,json,parquet ●准备工作 在people.json文件输入如下 阅读全文
posted @ 2019-09-11 00:31 DaBai的黑屋 阅读(878) 评论(0) 推荐(0)
摘要:1 StructuredStreaming的应用场景 5.输出模式 阅读全文
posted @ 2019-09-11 00:30 DaBai的黑屋 阅读(687) 评论(0) 推荐(1)
摘要:1.1. 计算操作 获得到Source之后的基本数据处理方式和之前学习的DataFrame、DataSet一致,不再赘述 ●官网示例代码: caseclassDeviceData(device:String, deviceType:String, signal:Double, time:DateTi 阅读全文
posted @ 2019-09-11 00:29 DaBai的黑屋 阅读(500) 评论(0) 推荐(0)
摘要:Structured Streaming曲折发展史 1.1. Spark Streaming 在2.0之前,Spark Streaming作为核心API的扩展,针对实时数据流,提供了一套可扩展、高吞吐、可容错的流式计算模型。Spark Streaming会接收实时数据源的数据,并切分成很多小的bat 阅读全文
posted @ 2019-09-11 00:28 DaBai的黑屋 阅读(1108) 评论(1) 推荐(1)
摘要:编程模型 ●编程模型概述 一个流的数据源从逻辑上来说就是一个不断增长的动态表格,随着时间的推移,新数据被持续不断地添加到表格的末尾。 用户可以使用 Dataset/DataFrame 函数式API或者 SQL 来对这个动态数据源进行实时查询。每次查询在逻辑上就是对当前的表格内容执行一次 SQL 查询 阅读全文
posted @ 2019-09-11 00:28 DaBai的黑屋 阅读(342) 评论(0) 推荐(0)
摘要:DStream的相关操作: DStream上的操作与RDD的类似,分为以下两种: DStream上的操作与RDD的类似,分为以下两种: Transformations(转换) Output Operations(输出)/Action 1.1Transformations ●常见Transformat 阅读全文
posted @ 2019-09-11 00:27 DaBai的黑屋 阅读(673) 评论(0) 推荐(0)
摘要:Spark Streaming的基础抽是DStream(Discretized Stream,离散化数据流,连续不断的数据流),代表持续性的数据流和经过各种Spark算子操作后的结果数据流 1.DStream本质上就是一系列时间上连续的RDD 2.对DStream的数据的进行RDD操作 3.容错性 阅读全文
posted @ 2019-09-11 00:26 DaBai的黑屋 阅读(540) 评论(0) 推荐(0)
摘要:1-- 原理: <!--more--> Spark Streaming中,会有一个接收器组件Receiver,作为一个长期运行的task跑在一个Executor上。Receiver接收外部的数据流形成input DStream DStream会被按照时间间隔划分成一批一批的RDD,当批处理间隔缩短到 阅读全文
posted @ 2019-09-11 00:25 DaBai的黑屋 阅读(247) 评论(0) 推荐(0)
摘要:●kafka文档 Kafka Connect: <!--more--> https://kafka.apache.org/documentation/#connect http://docs.confluent.io/2.0.0/connect/connect-jdbc/docs/index.htm 阅读全文
posted @ 2019-09-11 00:19 DaBai的黑屋 阅读(175) 评论(0) 推荐(0)

Live2D