Flink组件及特性

　　Flink 是一个针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。目前主要还是依靠开源社区的贡献而发展。对 Flink 而言，其所要处理的主要场景就是流数据，批数据只是流数据的一个极限特例而已。Flink 会把所有任务当成流来处理，这也是其最大的特点。Flink 可以支持本地的快速迭代，以及一些环形的迭代任务。并且 Flink 可以定制化内存管理。就框架本身与应用场景来说，Flink 更相似与 Storm。

1、Flink组件栈

部署模式

　　　　Flink能部署在云上或者局域网中，提供了所中部署方案(Local、Cluster、Cloud)，能在独立集群或者在被YARN或Mesos管理的集群上运行。

运行期

　　　　Flink的核心是分布式流式数据引擎，意味着数据以一次一个事件的形式被处理，这跟批次处理有很大不同。这个保证了上面说的那些Flink弹性和高性能的特性。

　　　　DataStream API和DataSet API都会使用单独编译的处理方式（Separate compilation process）生成JobGraph。DataSet API使用Optimizer来决定针对程序的优化方法，而DataStream API则使用stream builder来完成该任务。

代码库

　　　　Flink附随了一些产生DataSet或DataStream API程序的的类库和API：处理逻辑表查询的Table，机器学习的FlinkML，图像处理的Gelly，事件处理的CEP

2、Flink特性

流处理特性

　　　　ü 支持高吞吐、低延迟、高性能的流处理

　　　　ü 支持带有事件时间的窗口（Window）操作

　　　　ü 支持有状态计算的Exactly-once语义

　　　　ü 支持高度灵活的窗口（Window）操作，支持基于time、count、session，以及data-driven的窗口操作

　　　　ü 支持具有Backpressure功能的持续流模型

　　　　ü 支持基于轻量级分布式快照（Snapshot）实现的容错

　　　　ü 一个运行时同时支持Batch on Streaming处理和Streaming处理

　　　　ü Flink在JVM内部实现了自己的内存管理

　　　　ü 支持迭代计算

　　　　ü 支持程序自动优化：避免特定情况下Shuffle、排序等昂贵操作，中间结果有必要进行缓存

API支持

　　　　ü 对Streaming数据类应用，提供DataStream API

　　　　ü 对批处理类应用，提供DataSet API（支持Java/Scala）

Libraries支持

　　　　ü 支持机器学习（FlinkML）

　　　　ü 支持图分析（Gelly）

　　　　ü 支持关系数据处理（Table）

　　　　ü 支持复杂事件处理（CEP）

整合支持

　　　　ü 支持Flink on YARN

　　　　ü 支持HDFS

　　　　ü 支持来自Kafka的输入数据

　　　　ü 支持Apache HBase

　　　　ü 支持Hadoop程序

　　　　ü 支持Tachyon

　　　　ü 支持ElasticSearch

　　　　ü 支持RabbitMQ

　　　　ü 支持Apache Storm

　　　　ü 支持S3

　　　　ü 支持XtreemFS

posted @ 2018-03-17 16:17 liurio 阅读(1232) 评论(0) 收藏举报

刷新页面返回顶部

Flink组件及特性

1、Flink组件栈

2、Flink特性

公告