随笔分类 - 实时流计算
摘要:DataStream API介绍和示例 Flink程序运行流程 1. 获取执行环境 getExecutionEnvironment() createLocalEnvironment() createRemoteEnvironment(String host, int port, String...
阅读全文
摘要:What Apache Flink Apache Flink 是一个==分布式大数据处理引擎==,可对==有限数据流和无限数据流==进行==有状态计算==。可部署在==各种集群环境==,对各种大小的数据规模进行快速计算。 分布式大数据处理引擎 是一个分布式的、高可用的用于大数据处理的计算引擎 有限流
阅读全文
摘要:打通实时数据处理 1).流程图 LoggerGenerator <!--5f39ae17-8c62-4a45-bc43-b32064c9388a:W3siYmxvY2tUeXBlIjoicGFyYWdyYXBoIiwic3R5bGVzIjp7InRleHQtaW5kZW50IjoxLCJhbGlnb
阅读全文
摘要:SparkStreaming 1).概述:可扩展、高可用、容错性 一站式解决方案 2).原理 粗粒度:Spark Streaming 接受实时流数据,将数据切分为批次数据,交由Spark Engine处理数据。组RDD,微批处理。 细粒度: 3).核心 StreamingContext: start
阅读全文
摘要:继续SparkStreaming整合Kafka 其实将offset保存在zookeeper上不适用于高并发的情况的,于是乎,借鉴上次的代码。将offset保存在Hbasea上的方法也大概写了一下,暂时运行起来是没有问题的。 直接上代码(代码比较粗糙,但是思路应该还算清晰): 相比较上次的坑倒是没有很
阅读全文
摘要:分布式消息缓存Kafka 1、消息中间件:生产者和消费者 生产者、消费者、数据流(消息) 发布和订阅消息 容错存储消息记录 处理流数据 Kafka架构: procedure:生产者 consumer:消费者 broker:容错存储 topic:分类主题、标签 consumer group:一个con
阅读全文
摘要:一、前置准备: Linux命令基础 Scala、Python其中一门 Hadoop、Spark、Flume、Kafka、Hbase基础知识 二、分布式日志收集框架Flume 业务现状分析:服务器、web服务产生的大量日志,怎么使用,怎么将大量日志导入到集群 1、shell脚本批量,再传到Hdfs:实
阅读全文

浙公网安备 33010602011771号