随笔分类 -  大数据之flink

摘要:由于 Apache Flink 的开源二进制包未提供 HDP、MapR 和 CDH 的下载,所以,所以要兼容基于这些厂商的库编译 Apache Flink。 1、环境 Jdk 1.8、Maven 3.6.2、Scala-2.12 2、源码和 CDH 版本 Flink 1.10.0、CDH 6.3.1 阅读全文
posted @ 2020-07-28 15:57 abc十号 阅读(893) 评论(0) 推荐(0) 编辑
摘要:Flink 里面预定义了一些 source 和 sink。 Flink 内部也提供了一些 Boundled connectors。 "通过异步 IO 方式" 。 自定义 Source & Sink。 一、Flink 预定义 & 自定义 Source 和 Sink https://www.cnblog 阅读全文
posted @ 2020-05-21 15:40 abc十号 阅读(1183) 评论(2) 推荐(0) 编辑
摘要:"视频地址" PyFlink 核心功能介绍 文章概述:PyFlink 的核心功能原理介绍及相关 demo 演示。 作者:程鹤群(军长)(Apache Flink Committer,阿里巴巴技术专家),是 Flink 社区的一名 PMC ,现在在阿里巴巴的实时计算团队。2015年加入阿里巴巴搜索事业 阅读全文
posted @ 2020-05-17 23:51 abc十号 阅读(4427) 评论(0) 推荐(0) 编辑
摘要:本文摘自书籍《Flink 基础教程》 一、一致性的三种级别 当在分布式系统中引入状态时,自然也引入了一致性问题。一致性实际上是“正确性级别”的另一种说法,即在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比。在流处理中,一致性分为 3 个级别。 at-most-once:数据最多 阅读全文
posted @ 2020-05-06 20:55 abc十号 阅读(2553) 评论(0) 推荐(0) 编辑
摘要:1、理解 State(状态) 1.1、State 对象的状态 Flink 中的状态:一般指一个具体的 task/operator 某时刻在内存中的状态(例如某属性的值)。 注意:State 和 Checkpointing 不要搞混。 checkpoint 则表示了一个 Flink Job,在一个特定 阅读全文
posted @ 2020-04-29 16:57 abc十号 阅读(1007) 评论(0) 推荐(0) 编辑
摘要:一、概述 上图是flink的分层模型,Table API 和 SQL 处于最顶端,是 Flink 提供的高级 API 操作。Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。 Flink 在编程模型上提供了 DataSt 阅读全文
posted @ 2020-04-28 21:32 abc十号 阅读(1050) 评论(0) 推荐(0) 编辑
摘要:代码地址:https://gitee.com/xiexiandong/abc_bigdata.git 一、窗口函数 在定义了窗口分配器之后,我们需要为每一个窗口明确的指定计算逻辑,这个就是窗口函数要做的事情,当系统决定一个窗口已经准备好执行之后,这个窗口函数将被用 来处理窗口中的每一个元素(可能是分 阅读全文
posted @ 2020-04-27 21:26 abc十号 阅读(789) 评论(0) 推荐(0) 编辑
摘要:一、Time & Watermark 1.1、Flink 支持的三种 time DataStream 有大量基于 time 的 operator Flink支持三种 time: EventTime IngestTime ProcessingTime 1、三个时间的比较 EventTime 事件生成时 阅读全文
posted @ 2020-04-26 21:39 abc十号 阅读(434) 评论(0) 推荐(0) 编辑
摘要:代码地址 一、flink编程方法 获取执行环境(execution environment) 加载/创建初始数据集 对数据集进行各种转换操作(生成新的数据集) 指定将计算的结果放到何处去 触发APP执行 flink的计算方式和spark一样都是惰性的 Flink APP都是延迟执行的 只有当exec 阅读全文
posted @ 2020-04-25 21:44 abc十号 阅读(5061) 评论(0) 推荐(0) 编辑
摘要:代码地址 一、Source 输入 Controlling Latency(控制延迟)默认情况下,流中的元素并不会一个一个的在网络中传输(这会导致不必要的网络流量消耗) ,而是缓存起来,缓存 的大小可以在Flink的配置文件、ExecutionEnvironment、或者某个算子上进行配置(默认为10 阅读全文
posted @ 2020-04-24 21:09 abc十号 阅读(3908) 评论(1) 推荐(0) 编辑
摘要:一、flink架构 1.1、集群模型和角色 如上图所示:当 Flink 集群启动后,首先会启动一个 JobManger 和一个或多个的 TaskManager。由 Client 提交任务给 JobManager,JobManager 再调度任务到各个 TaskManager 去执行,然后 TaskM 阅读全文
posted @ 2020-04-23 21:36 abc十号 阅读(1290) 评论(0) 推荐(0) 编辑
摘要:一、DataStream Wordcount 代码地址 基于scala实现 maven依赖如下: <dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> 阅读全文
posted @ 2020-04-23 14:47 abc十号 阅读(591) 评论(0) 推荐(0) 编辑
摘要:一、flink介绍 Apache Flink是一个分布式大数据处理引擎,可对有界数据流和无界数据流进行有状态计算。 可部署在各种集群环境,对各种大小的数据规模进行快速计算。 1.1、有界数据流和无界数据流 1、无界流有一个开始但没有定义的结束。它们不会在生成时终止并提供数据。必须持续处理无界流,即必 阅读全文
posted @ 2020-04-22 21:15 abc十号 阅读(1719) 评论(0) 推荐(1) 编辑