文章分类 - Flink
摘要:Flink 模式检测(CEP) CEP 可以理解为类似正则表达式的东西 Flink 提供复杂事件处理(CEP)库,该库允许在事件流中进行模式检测。此外,Flink 的 SQL API 提供了一种关系式的查询表达方式,其中包含大量内置函数和基于规则的优化,可以开箱即用。 IDEA 中使用 CEP 导入
阅读全文
摘要:Flink 流表的 join 1、Regular Joins 常规联接 常规联接是最通用的联接类型,其中任何新记录或对联接输入任一侧的更改都是可见的,并且会影响整个联接结果。例如,如果左侧有一条新记录,则该记录将与右侧的所有先前和将来的记录合并。 但是,此操作具有重要含义:它需要将连接输入的两端永久
阅读全文
摘要:Flink 整合 Kafka 之 电信案例 SQL 版 Flink 整合 Kafka 之 电信案例 package com.shujia.flink.dx import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment i
阅读全文
摘要:Flink SQL 时间属性 Flink 可以基于几种不同的 时间 概念来处理数据。 处理时间 指的是执行具体操作时的机器时间(也称作”挂钟时间”) 事件时间 指的是数据本身携带的时间。这个时间是在事件产生时的时间。 摄入时间 指的是数据进入 Flink 的时间;在系统内部,会把它当做事件时间来处理
阅读全文
摘要:Flink Connectors 通过 Flink SQL 读 Kafka 写 MySQL package com.shujia.flink.table //只写SQL的情况下 //这边就不需要将最后面的改为 _ 了 //若是涉及到算子的时候需要改 import org.apache.flink.s
阅读全文
摘要:Flink 整合 Kafka 之 电信案例 数据 //手机号(通过md5加密的)--脱敏,网格编号,城市编号,区县编号,停留时间,进入时间,离开时间,…… D55433A437AEC8D8D3DB2BCA56E9E64392A9D93C,117210031795040,83401,8340104,3
阅读全文
摘要:Kafka 集群架构图 通过 java(Scala) 来读写 Kafka 导入依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>1.0.0</version
阅读全文
摘要:Flink 消费 Kafka 中的数据 在官网的 Connectors 中有 Kafka 1、导入依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.11</artifactI
阅读全文
摘要:Kafka 的搭建 Kafka : 去中心化架构 1、上传、解压、配置环境变量 上传压缩包到任意节点(这里选择master) cd /usr/local/module tar -zxvf /usr/local/module/kafka_2.11-1.0.0.tgz -C /usr/local/sof
阅读全文
摘要:Kafka 简介 实时计算的数据源 存储实时数据的工具 由Scala语言编写 去中心化架构 kafka是一个高吞吐的分布式消息系统 Apache kafka is publish-subscribe messaging rethought as a distributed commit log Ka
阅读全文
摘要:基于 DataStream API 实现欺诈检测 实时场景 Flink的定时器 package com.shujia.flink.core import org.apache.flink.api.common.functions.RuntimeContext import org.apache.fl
阅读全文
摘要:Flink State and Checkpoint Flink 通过 State 和 Checkpoint 来实现容错和数据处理的唯一一次 State 丰富的State API。 ValueState<T>: 保存一个可以更新和检索的值(如上所述,每个值都对应到当前的输入数据的 key,因此算子接
阅读全文
摘要:Flink 窗口 1、Time Window 时间窗口 2、Session Window 会话窗口 如果一段时间没有数据生成一个窗口 3、Count Window 统计窗口 窗口的使用需要先分组,因为需要针对某一个key去划分窗口 Time Window 窗口的使用需要先 keyBy ,再去划分窗口
阅读全文
摘要:Flink 基石 Flink Time 事件时间 代码示例 package com.shujia.flink.core import org.apache.flink.streaming.api.TimeCharacteristic import org.apache.flink.streaming
阅读全文
摘要:Flink 并行度 package com.shujia.flink.core import org.apache.flink.streaming.api.datastream.DataStreamSink import org.apache.flink.streaming.api.scala._
阅读全文
摘要:Flink 环境的搭建 1、local 本地测试 2、Standallone Cluster 独立集群(可能用的上) 3、Flink on Yarn 推荐 Standallone Cluster 独立集群 独立集群是不依赖hadoop的,所以可以先停掉 Hadoop 注意:独立集群的搭建需要配置 J
阅读全文
摘要:Flink Sink: 接收器 Flink 将转换计算后的数据发送的地点 。 Flink 常见的 Sink 大概有如下几类: 1、写入文件、 2、打印出来、 3、写入 socket 、 4、自定义的 sink 。自定义的 sink 常见的有 Apache kafka、RabbitMQ、MySQL、E
阅读全文
摘要:DataStream常用算子 在 Flink 应用程序中,无论你的应用程序是批程序,还是流程序,都是上图这种模型,有数据源(source),有数据下游(sink),我们写的应用程序多是对数据源过来的数据做一系列操作,总结如下。 Source: 数据源,Flink 在流处理和批处理上的 source
阅读全文
摘要:Flink Source:数据源 Flink 在流处理和批处理上的 source 大概有 4 类: 1、基于本地集合的 source、 2、基于文件的 source、 3、基于网络套接字的 source、 4、自定义的 source。自定义的 source 常见的有 Apache kafka、Ama
阅读全文

浙公网安备 33010602011771号