大数据之flink - 随笔分类 - abc十号

flink 系列13 - Flink 集成 CDH 源码编译

摘要：由于 Apache Flink 的开源二进制包未提供 HDP、MapR 和 CDH 的下载，所以，所以要兼容基于这些厂商的库编译 Apache Flink。 1、环境 Jdk 1.8、Maven 3.6.2、Scala-2.12 2、源码和 CDH 版本 Flink 1.10.0、CDH 6.3.1 阅读全文

posted @ 2020-07-28 15:57 abc十号阅读(968) 评论(0) 推荐(0)

flink系列-12、Flink 的 Connectors & Flink Kafka Connectors

摘要：Flink 里面预定义了一些 source 和 sink。 Flink 内部也提供了一些 Boundled connectors。 "通过异步 IO 方式" 。自定义 Source & Sink。一、Flink 预定义 & 自定义 Source 和 Sink https://www.cnblog 阅读全文

posted @ 2020-05-21 15:40 abc十号阅读(1289) 评论(2) 推荐(0)

flink系列-11、PyFlink 核心功能介绍（整理自 Flink 中文社区）

摘要："视频地址" PyFlink 核心功能介绍文章概述：PyFlink 的核心功能原理介绍及相关 demo 演示。作者：程鹤群（军长）（Apache Flink Committer，阿里巴巴技术专家），是 Flink 社区的一名 PMC ,现在在阿里巴巴的实时计算团队。2015年加入阿里巴巴搜索事业阅读全文

posted @ 2020-05-17 23:51 abc十号阅读(4669) 评论(0) 推荐(0)

flink系列-10、flink保证数据的一致性

摘要：本文摘自书籍《Flink 基础教程》一、一致性的三种级别当在分布式系统中引入状态时，自然也引入了一致性问题。一致性实际上是“正确性级别”的另一种说法，即在成功处理故障并恢复之后得到的结果，与没有发生任何故障时得到的结果相比。在流处理中，一致性分为 3 个级别。 at-most-once：数据最多阅读全文

posted @ 2020-05-06 20:55 abc十号阅读(2738) 评论(0) 推荐(0)

flink系列-9、flink的状态与容错

摘要：1、理解 State（状态） 1.1、State 对象的状态 Flink 中的状态：一般指一个具体的 task/operator 某时刻在内存中的状态（例如某属性的值）。注意：State 和 Checkpointing 不要搞混。 checkpoint 则表示了一个 Flink Job，在一个特定阅读全文

posted @ 2020-04-29 16:57 abc十号阅读(1119) 评论(0) 推荐(0)

flink系列-8、Flink Table API & Flink Sql API

摘要：一、概述上图是flink的分层模型，Table API 和 SQL 处于最顶端，是 Flink 提供的高级 API 操作。Flink SQL 是 Flink 实时计算为简化计算模型，降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。 Flink 在编程模型上提供了 DataSt 阅读全文

posted @ 2020-04-28 21:32 abc十号阅读(1144) 评论(0) 推荐(0)

flink系列-7、窗口函数 & Windows 的 Operator demo

摘要：代码地址：https://gitee.com/xiexiandong/abc_bigdata.git 一、窗口函数在定义了窗口分配器之后，我们需要为每一个窗口明确的指定计算逻辑，这个就是窗口函数要做的事情，当系统决定一个窗口已经准备好执行之后，这个窗口函数将被用来处理窗口中的每一个元素(可能是分阅读全文

posted @ 2020-04-27 21:26 abc十号阅读(830) 评论(0) 推荐(0)

flink系列-6、Time & Window

摘要：一、Time & Watermark 1.1、Flink 支持的三种 time DataStream 有大量基于 time 的 operator Flink支持三种 time: EventTime IngestTime ProcessingTime 1、三个时间的比较 EventTime 事件生成时阅读全文

posted @ 2020-04-26 21:39 abc十号阅读(468) 评论(0) 推荐(0)

flink系列-5、flink常见函数使用及自定义转换函数

摘要：代码地址一、flink编程方法获取执行环境（execution environment）加载/创建初始数据集对数据集进行各种转换操作（生成新的数据集）指定将计算的结果放到何处去触发APP执行 flink的计算方式和spark一样都是惰性的 Flink APP都是延迟执行的只有当exec 阅读全文

posted @ 2020-04-25 21:44 abc十号阅读(5315) 评论(0) 推荐(0)

flink系列-4、flink自定义source、sink

摘要：代码地址一、Source 输入 Controlling Latency（控制延迟）默认情况下，流中的元素并不会一个一个的在网络中传输(这会导致不必要的网络流量消耗) ，而是缓存起来，缓存的大小可以在Flink的配置文件、ExecutionEnvironment、或者某个算子上进行配置（默认为10 阅读全文

posted @ 2020-04-24 21:09 abc十号阅读(4277) 评论(1) 推荐(0)

flink系列-3、flink架构，资源和资源组

摘要：一、flink架构 1.1、集群模型和角色如上图所示：当 Flink 集群启动后，首先会启动一个 JobManger 和一个或多个的 TaskManager。由 Client 提交任务给 JobManager，JobManager 再调度任务到各个 TaskManager 去执行，然后 TaskM 阅读全文

posted @ 2020-04-23 21:36 abc十号阅读(1451) 评论(0) 推荐(0)

flink系列-2、flink入门程序 Wordcount 和 sql 实现

摘要：一、DataStream Wordcount 代码地址基于scala实现 maven依赖如下： <dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> 阅读全文

posted @ 2020-04-23 14:47 abc十号阅读(621) 评论(0) 推荐(0)

flink系列-1、flink介绍，反压原理

摘要：一、flink介绍 Apache Flink是一个分布式大数据处理引擎，可对有界数据流和无界数据流进行有状态计算。可部署在各种集群环境，对各种大小的数据规模进行快速计算。 1.1、有界数据流和无界数据流 1、无界流有一个开始但没有定义的结束。它们不会在生成时终止并提供数据。必须持续处理无界流，即必阅读全文

posted @ 2020-04-22 21:15 abc十号阅读(1882) 评论(0) 推荐(1)

@zl

随笔分类 - 大数据之flink

公告