随笔分类 - flink
摘要:本篇要解决的问题: Flink是使用Java的序列化方式吗? Java序列化方式有什么问题? Java中是用Class描述类型,Flink也是用Class描述吗? 请解释以下Java类型擦除。 Flink中为什么使用Lambda表达式实现flatMap需要通过returns指定类型呢? new Ar
阅读全文
摘要:Flink官方文档 每一个学习Flink的同学,都应该熟悉官网提供的文档资源。Flink官网上拥有最全、最权威的学习资源,Flink对中国用户很友好,大部分资源都已经做了汉化。 https://ci.apache.org/projects/flink/flink-docs-release-1.12/
阅读全文
摘要:我们先来以滚动时间窗口为例,来看一下窗口的几个时间参数与Flink流处理系统时间特性的关系。获取窗口开始时间Flink源代码获取窗口的开始时间为以下代码:org.apache.flink.streaming.api.windowing.windows.TimeWindow/** * Method to get the window start for a timestamp. * * @param...
阅读全文
摘要:RocksDB介绍RocksDB简介RocksDB是基于C++语言编写的嵌入式KV存储引擎,它不是一个分布式的DB,而是一个高效、高性能、单点的数据库引擎。它是由Facebook基于Google开源的kv存储LevelDB开发开发。RocksDB使用LSM存储引擎。它针对不同的生产环境进行调优,可以
阅读全文
摘要:什么是流式处理呢?这个问题其实我们大部分时候是没有考虑过的,大多数,我们是把流式处理和实时计算放在一起来说的。我们先来了解下,什么是数据流。数据流(事件流)数据流是无边界数据集的抽象我们之前接触的数据处理,大多都都是有界的。例如:处理某天的数据、某个季度的数据等无界意味着数据是无限地、持续增长的数据流会随着时间的推移,源源不断地加入进来数据流无处不再信息卡交易电商购物快递网络交换机的流向数据设备传...
阅读全文
摘要:运行作业界面在以下界面中,可以查看到作业的名称、作业的启动时间、作业总计运行时长、作业一共有多少个任务、当前正在运行多少个任务、以及作业的当前状态。这里的程序:一共有17个任务,当前正在运行的是17个任务。作业概览界面在这个界面中,我们可以看到数据流图。这个程序中,一共有3个算子。Custom Source任务并行度为1Flat Map任务并行度为8,Flink Map –> Sink任务并行度为...
阅读全文
摘要:很多时候,我们在IDE中编写Flink代码,我们希望能够查看到Web UI,从而来了解Flink程序的运行情况。按照以下步骤操作即可,亲测有效。1、添加Maven依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-
阅读全文
摘要:先上代码: public class WordCountKeyedState { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnv
阅读全文
摘要:在Flink中的每个函数和运算符都是有状态的。在处理过程中可以用状态来存储数据,这样可以利用状态来构建复杂操作。为了让状态容错,Flink需要设置checkpoint状态。Flink程序是通过checkpoint来保证容错,通过checkpoint机制,Flink可恢复作业的状态和计算位置。chec
阅读全文
摘要:本篇我们将使用Java语言来实现Flink的单词统计。代码开发环境准备导入Flink 1.9 pom依赖<dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId
阅读全文

浙公网安备 33010602011771号