实时流计算 - 随笔分类 - 麻辣小虾

DataStream API介绍和示例

摘要：DataStream API介绍和示例 Flink程序运行流程 1. 获取执行环境 getExecutionEnvironment() createLocalEnvironment() createRemoteEnvironment(String host, int port, String... 阅读全文

posted @ 2019-07-20 14:53 麻辣小虾阅读(3643) 评论(0) 推荐(0)

Apache Flink 简单介绍和入门

摘要：What Apache Flink Apache Flink 是一个==分布式大数据处理引擎==，可对==有限数据流和无限数据流==进行==有状态计算==。可部署在==各种集群环境==，对各种大小的数据规模进行快速计算。分布式大数据处理引擎是一个分布式的、高可用的用于大数据处理的计算引擎有限流阅读全文

posted @ 2019-07-20 14:52 麻辣小虾阅读(1174) 评论(0) 推荐(0)

Flume+Kafka+SparkStreaming+Hbase+可视化（四）---未全部完成

摘要：打通实时数据处理 1）.流程图 LoggerGenerator <!--5f39ae17-8c62-4a45-bc43-b32064c9388a:W3siYmxvY2tUeXBlIjoicGFyYWdyYXBoIiwic3R5bGVzIjp7InRleHQtaW5kZW50IjoxLCJhbGlnb 阅读全文

posted @ 2018-09-18 14:45 麻辣小虾阅读(1349) 评论(0) 推荐(0)

Flume+Kafka+SparkStreaming+Hbase+可视化（三）

摘要：SparkStreaming 1）.概述：可扩展、高可用、容错性一站式解决方案 2）.原理粗粒度：Spark Streaming 接受实时流数据，将数据切分为批次数据，交由Spark Engine处理数据。组RDD，微批处理。细粒度： 3）.核心 StreamingContext： start 阅读全文

posted @ 2018-09-18 14:39 麻辣小虾阅读(855) 评论(0) 推荐(0)

SparkStreaming整合Kafka（Offset保存在Hbase上，Spark2.X + kafka0.10.X）

摘要：继续SparkStreaming整合Kafka 其实将offset保存在zookeeper上不适用于高并发的情况的，于是乎，借鉴上次的代码。将offset保存在Hbasea上的方法也大概写了一下，暂时运行起来是没有问题的。直接上代码（代码比较粗糙，但是思路应该还算清晰）：相比较上次的坑倒是没有很阅读全文

posted @ 2018-07-30 17:58 麻辣小虾阅读(2089) 评论(2) 推荐(1)

Flume+Kafka+SparkStreaming+Hbase+可视化（二）

摘要：分布式消息缓存Kafka 1、消息中间件：生产者和消费者生产者、消费者、数据流（消息）发布和订阅消息容错存储消息记录处理流数据 Kafka架构： procedure：生产者 consumer：消费者 broker：容错存储 topic：分类主题、标签 consumer group：一个con 阅读全文

posted @ 2018-07-25 22:16 麻辣小虾阅读(1590) 评论(0) 推荐(0)

Flume+Kafka+SparkStreaming+Hbase+可视化（一）

摘要：一、前置准备： Linux命令基础 Scala、Python其中一门 Hadoop、Spark、Flume、Kafka、Hbase基础知识二、分布式日志收集框架Flume 业务现状分析：服务器、web服务产生的大量日志，怎么使用，怎么将大量日志导入到集群 1、shell脚本批量，再传到Hdfs：实阅读全文

posted @ 2018-07-25 18:06 麻辣小虾阅读(837) 评论(0) 推荐(0)

麻辣小虾

万丈高楼平地起，铁马冰河入梦来

随笔分类 - 实时流计算

公告