sparkstreaming - 随笔分类 - 大码王

项目实战从 0 到 1 学习之SparkStreaming（27）使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎

摘要：Apache Kafka 是一个可扩展，高性能，低延迟的平台，允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分，是一个可扩展、高吞吐、容错的实时流处理引擎。虽然是使用 Scala 开发的，阅读全文

posted @ 2020-09-08 17:22 大码王阅读(347) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(17)--大数据场景下数据异构之 Mysql实时写入HBase（借助canal kafka SparkStreaming）

摘要：背景：公司线下ETC机房有个Mycat集群，供订单系统使用，现需要进行数据异构将Mysql数据(近)实时写入另一套数据库用作读请求和数据归档用技术选型：binlog解析工具：阿里开源的canal 消息中间件：kafka 流式框架：SparkStreaming 上代码 canal解析mysqlbin 阅读全文

posted @ 2020-08-14 10:40 大码王阅读(398) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(16)--基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析

摘要：1.Canal是什么？2.如何编写Canal客户端？3.如何编写一个数据库操作的Spark程序代码？4.开发Spark项目时容易发生哪些冲突问题？Spark中的Spark Streaming可以用于实时流项目的开发，实时流项目的数据源除了可以来源于日志、文件、网络端口等，常常也有这种需求，那就是实时阅读全文

posted @ 2020-08-13 14:31 大码王阅读(353) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(15)--Spark Streaming+Kafka提交offset实现有且仅有一次(exactly-once)

摘要：本文讲Spark Streamming使用Direct方式读取Kafka，并在输出（存储）操作之后提交offset到Kafka里实现程序读写操作有且仅有一次，即程序重启之后之前消费并且输出过的数据不再重复消费，接着上次消费的位置继续消费Kafka里的数据。Spark Streamming+Kafka 阅读全文

posted @ 2020-06-15 16:26 大码王阅读(878) 评论(1) 推荐(0) 编辑

SparkStreaming入门到实战之(14)--利用Spark实现Oracle到Hive的历史数据同步

摘要：1、需求背景通过Spark将关系型数据库（以Oracle为例）的表同步的Hive，这里讲的只是同步历史数据，不包括同步增量数据。 2、Oracle和Hive的字段类型对应利用Spark的字段类型自动匹配，本来以为Spark匹配的不是很好，只是简单的判断一下是否为数字、字符串，结果经验证，Spar 阅读全文

posted @ 2020-06-15 16:24 大码王阅读(898) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(13)--spark-submit提交Spark Streamming+Kafka程序

摘要：前言 Spark Streaming本身是没有Kafka相关的jar包和API的，如果想利用Spark Streaming获取Kafka里的数据，需要自己将依赖添加SBT或Maven项目中，添加依赖更新项目之后，就可以在Eclipse等IDE里直接运行Spark Streamming+Kafka的程阅读全文

posted @ 2020-06-15 16:18 大码王阅读(425) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(12)--SparkStreaming+Kafka 实现统计基于缓存的实时uv

摘要：前言本文利用SparkStreaming+Kafka实现实时的统计uv，即独立访客，一个用户一天内访问多次算一次，这个看起来要对用户去重，其实只要按照WordCount的思路，最后输出key的数量即可，所以可以利用SparkStreaming+Kafka 实现统计基于缓存的实时wordcount，阅读全文

posted @ 2020-06-15 14:09 大码王阅读(566) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(11)--SparkStreaming+Kafka 实现基于缓存的实时wordcount

摘要：前言本文利用SparkStreaming和Kafka实现基于缓存的实时wordcount程序，什么意思呢，因为一般的SparkStreaming的wordcount程序比如官网上的，只能统计最新时间间隔内的每个单词的数量，而不能将历史的累加起来，本文是看了教程之后，自己实现了一下kafka的程序，阅读全文

posted @ 2020-06-15 14:02 大码王阅读(316) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(10)--基于OGG的Oracle与Hadoop集群准实时同步介绍

摘要：前言 ogg即Oracle GoldenGate是Oracle的同步工具，本文讲如何配置ogg以实现Oracle数据库增量数据实时同步到kafka中，其中同步消息格式为json。下面是我的源端和目标端的一些配置信息： -版本OGG版本ip别名源端 OracleRelease 11.2.0.1.0 阅读全文

posted @ 2020-06-15 11:02 大码王阅读(464) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(9)--Spark Streaming连接Kafka入门教程

摘要：前言首先要安装好kafka,这里不做kafka安装的介绍,本文是Spark Streaming入门教程，只是简单的介绍如何利用spark 连接kafka，并消费数据，由于博主也是才学，所以其中代码以实现为主，可能并不是最好的实现方式。 1、对应依赖根据kafka版本选择对应的依赖，我的kafka 阅读全文

posted @ 2020-06-15 10:51 大码王阅读(235) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(7)--Spark Streaming企业运用

摘要：Spark Streaming 是什么 1、SPark Streaming 是 Spark 中一个组件，基于 Spark Core 进行构建，用于对流式进行处理，类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark 阅读全文

posted @ 2020-05-29 18:28 大码王阅读(384) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(6)--sparkstreaming入门到实战

摘要：第1章 Spark Streaming 概述 1.1 什么是 Spark Streaming Spark Streaming 类似于 Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的阅读全文

posted @ 2020-05-29 18:11 大码王阅读(662) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(5)--Spark_Streaming整合Kafka

摘要：Spark Streaming 整合 Kafka 一、版本说明二、项目依赖三、整合Kafka 3.1 ConsumerRecord 3.2 生产者属性 3.3 位置策略 3.4 订阅方式 3.5 提交偏移量四、启动测试一、版本说明 Spark 针对 Kafka 的不同版本，提供了两套整合方阅读全文

posted @ 2020-05-15 09:35 大码王阅读(412) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(4)--Spark Streaming 整合 Flume

摘要：Spark Streaming 整合 Flume 一、简介二、推送式方法 2.1 配置日志收集Flume 2.2 项目依赖 2.3 Spark Streaming接收日志数据 2.4 项目打包 2.5 启动服务和提交作业 2.6 测试 2.7 注意事项三、拉取式方法 3.1 配置日志收集Flum 阅读全文

posted @ 2020-05-15 09:32 大码王阅读(444) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(3)--Spark Streaming与流处理

摘要：Spark Streaming与流处理一、流处理 1.1 静态数据处理 1.2 流处理二、Spark Streaming 2.1 简介 2.2 DStream 2.3 Spark & Storm & Flink 一、流处理 1.1 静态数据处理在流处理之前，数据通常存储在数据库，文件系统阅读全文

posted @ 2020-05-14 15:40 大码王阅读(419) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(2)--Spark Streaming 基本操作

摘要：Spark Streaming 基本操作一、案例引入 3.1 StreamingContext 3.2 数据源 3.3 服务的启动与停止二、Transformation 2.1 DStream与RDDs 2.2 updateStateByKey 2.3 启动测试三、输出操作 3.1 输出API 阅读全文

posted @ 2020-05-14 15:35 大码王阅读(1589) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(1)--spark优化总结

摘要：1、Spark调优背景目前Zeppelin已经上线一段时间，Spark作为底层SQL执行引擎，需要进行整体性能调优，来提高SQL查询效率。本文主要给出调优的结论，因为涉及参数很多，故没有很细粒度调优，但整体调优方向是可以得出的。环境：服务器600+，spark 2.0.2，Hadoop 2.6. 阅读全文

posted @ 2020-05-07 11:08 大码王阅读(367) 评论(0) 推荐(0) 编辑

随笔分类 - sparkstreaming

公告