……

随笔分类 -  sparkstreaming

spark
项目实战 从 0 到 1 学习之SparkStreaming(27)使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎
摘要:Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的, 阅读全文
posted @ 2020-09-08 17:22 大码王 阅读(347) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(17)--大数据场景下数据异构之 Mysql实时写入HBase(借助canal kafka SparkStreaming)
摘要:背景:公司线下ETC机房有个Mycat集群,供订单系统使用,现需要进行数据异构将Mysql数据(近)实时写入另一套数据库用作读请求和数据归档用 技术选型:binlog解析工具:阿里开源的canal 消息中间件:kafka 流式框架:SparkStreaming 上代码 canal解析mysqlbin 阅读全文
posted @ 2020-08-14 10:40 大码王 阅读(398) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(16)--基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析
摘要:1.Canal是什么?2.如何编写Canal客户端?3.如何编写一个数据库操作的Spark程序代码?4.开发Spark项目时容易发生哪些冲突问题?Spark中的Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时 阅读全文
posted @ 2020-08-13 14:31 大码王 阅读(353) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(15)--Spark Streaming+Kafka提交offset实现有且仅有一次(exactly-once)
摘要:本文讲Spark Streamming使用Direct方式读取Kafka,并在输出(存储)操作之后提交offset到Kafka里实现程序读写操作有且仅有一次,即程序重启之后之前消费并且输出过的数据不再重复消费,接着上次消费的位置继续消费Kafka里的数据。Spark Streamming+Kafka 阅读全文
posted @ 2020-06-15 16:26 大码王 阅读(878) 评论(1) 推荐(0) 编辑
SparkStreaming入门到实战之(14)--利用Spark实现Oracle到Hive的历史数据同步
摘要:1、需求背景 通过Spark将关系型数据库(以Oracle为例)的表同步的Hive,这里讲的只是同步历史数据,不包括同步增量数据。 2、Oracle和Hive的字段类型对应 利用Spark的字段类型自动匹配,本来以为Spark匹配的不是很好,只是简单的判断一下是否为数字、字符串,结果经验证,Spar 阅读全文
posted @ 2020-06-15 16:24 大码王 阅读(898) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(13)--spark-submit提交Spark Streamming+Kafka程序
摘要:前言 Spark Streaming本身是没有Kafka相关的jar包和API的,如果想利用Spark Streaming获取Kafka里的数据,需要自己将依赖添加SBT或Maven项目中,添加依赖更新项目之后,就可以在Eclipse等IDE里直接运行Spark Streamming+Kafka的程 阅读全文
posted @ 2020-06-15 16:18 大码王 阅读(425) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(12)--SparkStreaming+Kafka 实现统计基于缓存的实时uv
摘要:前言 本文利用SparkStreaming+Kafka实现实时的统计uv,即独立访客,一个用户一天内访问多次算一次,这个看起来要对用户去重,其实只要按照WordCount的思路,最后输出key的数量即可,所以可以利用SparkStreaming+Kafka 实现统计基于缓存的实时wordcount, 阅读全文
posted @ 2020-06-15 14:09 大码王 阅读(566) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(11)--SparkStreaming+Kafka 实现基于缓存的实时wordcount
摘要:前言 本文利用SparkStreaming和Kafka实现基于缓存的实时wordcount程序,什么意思呢,因为一般的SparkStreaming的wordcount程序比如官网上的,只能统计最新时间间隔内的每个单词的数量,而不能将历史的累加起来,本文是看了教程之后,自己实现了一下kafka的程序, 阅读全文
posted @ 2020-06-15 14:02 大码王 阅读(316) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(10)--基于OGG的Oracle与Hadoop集群准实时同步介绍
摘要:前言 ogg即Oracle GoldenGate是Oracle的同步工具,本文讲如何配置ogg以实现Oracle数据库增量数据实时同步到kafka中,其中同步消息格式为json。 下面是我的源端和目标端的一些配置信息: -版本OGG版本ip别名 源端 OracleRelease 11.2.0.1.0 阅读全文
posted @ 2020-06-15 11:02 大码王 阅读(464) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(9)--Spark Streaming连接Kafka入门教程
摘要:前言 首先要安装好kafka,这里不做kafka安装的介绍,本文是Spark Streaming入门教程,只是简单的介绍如何利用spark 连接kafka,并消费数据,由于博主也是才学,所以其中代码以实现为主,可能并不是最好的实现方式。 1、对应依赖 根据kafka版本选择对应的依赖,我的kafka 阅读全文
posted @ 2020-06-15 10:51 大码王 阅读(235) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(7)--Spark Streaming企业运用
摘要:Spark Streaming 是什么 1、SPark Streaming 是 Spark 中一个组件,基于 Spark Core 进行构建,用于对流式进行处理,类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark 阅读全文
posted @ 2020-05-29 18:28 大码王 阅读(384) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(6)--sparkstreaming入门到实战
摘要:第1章 Spark Streaming 概述 1.1 什么是 Spark Streaming Spark Streaming 类似于 Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的 阅读全文
posted @ 2020-05-29 18:11 大码王 阅读(662) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(5)--Spark_Streaming整合Kafka
摘要:Spark Streaming 整合 Kafka ​ 一、版本说明二、项目依赖三、整合Kafka 3.1 ConsumerRecord 3.2 生产者属性 3.3 位置策略 3.4 订阅方式 3.5 提交偏移量四、启动测试 ​ 一、版本说明 Spark 针对 Kafka 的不同版本,提供了两套整合方 阅读全文
posted @ 2020-05-15 09:35 大码王 阅读(412) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(4)--Spark Streaming 整合 Flume
摘要:Spark Streaming 整合 Flume ​ 一、简介二、推送式方法 2.1 配置日志收集Flume 2.2 项目依赖 2.3 Spark Streaming接收日志数据 2.4 项目打包 2.5 启动服务和提交作业 2.6 测试 2.7 注意事项三、拉取式方法 3.1 配置日志收集Flum 阅读全文
posted @ 2020-05-15 09:32 大码王 阅读(444) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(3)--Spark Streaming与流处理
摘要:Spark Streaming与流处理 ​ 一、流处理 1.1 静态数据处理 1.2 流处理二、Spark Streaming 2.1 简介 2.2 DStream 2.3 Spark & Storm & Flink ​ 一、流处理 1.1 静态数据处理 在流处理之前,数据通常存储在数据库,文件系统 阅读全文
posted @ 2020-05-14 15:40 大码王 阅读(419) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(2)--Spark Streaming 基本操作
摘要:Spark Streaming 基本操作 ​ 一、案例引入 3.1 StreamingContext 3.2 数据源 3.3 服务的启动与停止二、Transformation 2.1 DStream与RDDs 2.2 updateStateByKey 2.3 启动测试三、输出操作 3.1 输出API 阅读全文
posted @ 2020-05-14 15:35 大码王 阅读(1589) 评论(0) 推荐(0) 编辑
SparkStreaming入门到实战之(1)--spark优化总结
摘要:1、Spark调优背景 目前Zeppelin已经上线一段时间,Spark作为底层SQL执行引擎,需要进行整体性能调优,来提高SQL查询效率。本文主要给出调优的结论,因为涉及参数很多,故没有很细粒度调优,但整体调优方向是可以得出的。 环境:服务器600+,spark 2.0.2,Hadoop 2.6. 阅读全文
posted @ 2020-05-07 11:08 大码王 阅读(367) 评论(0) 推荐(0) 编辑

复制代码