随笔分类 -  FLINK 基础

上一页 1 ··· 3 4 5 6 7 8 下一页
摘要:Apache Hive 已经成为了数据仓库生态系统中的核心。 它不仅仅是一个用于大数据分析和ETL场景的SQL引擎,同样它也是一个数据管理平台,可用于发现,定义,和演化数据。 Flink 与 Hive 的集成包含两个层面。 一是利用了 Hive 的 MetaStore 作为持久化的 Catalog, 阅读全文
posted @ 2020-10-03 18:03 秋华
摘要:Flink Table 和 SQL内置了很多SQL中支持的函数;如果有无法满足的需要,则可以实现用户自定义的函数(UDF)来解决。 1 系统内置函数 Flink Table API 和 SQL为用户提供了一组用于数据转换的内置函数。SQL中支持的很多函数,Table API和SQL都已经做了实现,其 阅读全文
posted @ 2020-10-03 17:58 秋华
摘要:1 常规窗口 时间语义,要配合窗口操作才能发挥作用。最主要的用途,当然就是开窗口、根据时间段做计算了。下面我们就来看看Table API和SQL中,怎么利用时间字段做窗口操作。 在Table API和SQL中,主要有两种窗口:Group Windows和Over Windows 1.1 分组窗口 分 阅读全文
posted @ 2020-10-03 17:53 秋华
摘要:Table API和SQL,本质上还是基于关系型表的操作方式;而关系型表、关系代数,以及SQL本身,一般是有界的,更适合批处理的场景。这就导致在进行流处理的过程中,理解会稍微复杂一些,需要引入一些特殊概念。 1 流处理和关系代数(表,及SQL)的区别 关系代数(表)/SQL流处理 处理的数据对象 字 阅读全文
posted @ 2020-10-03 17:49 秋华
摘要:1 基本程序结构 Table API 和 SQL 的程序结构,与流式处理的程序结构类似;也可以近似地认为有这么几步:首先创建执行环境,然后定义source、transform和sink。 具体操作流程如下: val tableEnv = ... // 创建表环境 // 创建表 tableEnv.co 阅读全文
posted @ 2020-10-03 17:44 秋华
该文被密码保护。
posted @ 2020-09-16 18:57 秋华
摘要:1.什么是 CEP 概念: 一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据,满足规则的复杂事件。 特征:  目标:从有序的简单事件流中发现一些高阶特征  输入:一个或多个由简单事件构成的事件流  处理:识别简单事件之间的内在联系,多个符合一定规则的简单事件构成复杂 阅读全文
posted @ 2020-08-11 11:22 秋华
摘要:什么是Table API和Flink SQL Flink本身是批流统一的处理框架,所以Table API和SQL,就是批流统一的上层处理API。目前功能尚未完善,处于活跃的开发阶段。 Table API是一套内嵌在Java和Scala语言中的查询API,它允许我们以非常直观的方式,组合来自一些关系运 阅读全文
posted @ 2020-08-04 14:45 秋华
摘要:什么是复杂事件CEP? 一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据,满足规则的复杂事件。 特征: 目标:从有序的简单事件流中发现一些高阶特征 输入:一个或多个由简单事件构成的事件流 处理:识别简单事件之间的内在联系,多个符合一定规则的简单事件构成复杂事件 输出:满足 阅读全文
posted @ 2020-08-04 14:23 秋华
摘要:1 部署方式 1.1 独立集群 独立集群包含至少一个master进程,以及至少一个TaskManager进程,TaskManager进程运行在一台或者多台机器上。所有的进程都是JVM进程。下图展示了独立集群的部署。 master进程在不同的线程中运行了一个Dispatcher和一个ResourceM 阅读全文
posted @ 2020-08-04 14:03 秋华
摘要:0 简介 数据可以存储在不同的系统中,例如:文件系统,对象存储系统(OSS),关系型数据库,Key-Value存储,搜索引擎索引,日志系统,消息队列,等等。每一种系统都是给特定的应用场景设计的,在某一个特定的目标上超越了其他系统。今天的数据架构,往往包含着很多不同的存储系统。在将一个组件加入到我们的 阅读全文
posted @ 2020-08-04 12:25 秋华
摘要:状态操作符和用户自定义函数都是我们在写流处理程序时,常用的工具。事实上,大部分稍微复杂一点的逻辑都需要保存数据或者保存计算结果。很多Flink内置的操作符例如:source操作符,sink操作符等等都是有状态的,也就是说会缓存流数据或者计算结果。例如,窗口操作符将会为ProcessWindowFun 阅读全文
posted @ 2020-08-04 11:51 秋华
摘要:1 基于时间的双流Join 数据流操作的另一个常见需求是对两条数据流中的事件进行联结(connect)或Join。Flink DataStream API中内置有两个可以根据时间条件对数据流进行Join的算子:基于间隔的Join和基于窗口的Join。本节我们会对它们进行介绍。 如果Flink内置的J 阅读全文
posted @ 2020-08-04 11:34 秋华
摘要:1 窗口操作符 窗口操作是流处理程序中很常见的操作。窗口操作允许我们在无限流上的一段有界区间上面做聚合之类的操作。而我们使用基于时间的逻辑来定义区间。窗口操作符提供了一种将数据放进一个桶,并根据桶中的数据做计算的方法。例如,我们可以将事件放进5分钟的滚动窗口中,然后计数。 无限流转化成有限数据的方法 阅读全文
posted @ 2020-08-03 23:21 秋华

上一页 1 ··· 3 4 5 6 7 8 下一页