随笔分类 -  Flink

摘要:Motivation I/O access, for the most case, is a time-consuming process, making the TPS for single operator much lower than in-memory computing, particu 阅读全文
posted @ 2019-01-31 10:50 大数据从业者FelixZh 阅读(774) 评论(0) 推荐(0)
摘要:通常我们在编写一个flink的作业的时候,肯定会有依赖的jar包。flink官方希望你将所有的依赖和业务逻辑打成一个fat jar,这样方便提交,因为flink认为你应该对自己的业务逻辑做好单元测试,而不应该把这部分测试工作频繁提交到集群去做。但事实是我们往往不愿意打一个fat jar,我们希望将业 阅读全文
posted @ 2019-01-21 17:36 大数据从业者FelixZh 阅读(10470) 评论(0) 推荐(0)
摘要:01 Mar 2018 Piotr Nowojski (@PiotrNowojski) & Mike Winters (@wints) This post is an adaptation of Piotr Nowojski’s presentation from Flink Forward Ber 阅读全文
posted @ 2019-01-08 09:25 大数据从业者FelixZh 阅读(515) 评论(0) 推荐(0)
摘要:18 Nov 2014 by Fabian Hüske (@fhueske) Apache Hadoop is an industry standard for scalable analytical data processing. Many data analysis applications 阅读全文
posted @ 2019-01-07 20:29 大数据从业者FelixZh 阅读(709) 评论(0) 推荐(0)
摘要:感谢英文原文作者:https://data-artisans.com/blog/a-practical-guide-to-broadcast-state-in-apache-flink 不过,原文最近好像不能访问了。应该是https://www.da-platform.com/网站移除了blog板块 阅读全文
posted @ 2019-01-03 19:42 大数据从业者FelixZh 阅读(2574) 评论(0) 推荐(0)
摘要:Flink流处理的时间窗口 对于流处理系统来说,流入的消息是无限的,所以对于聚合或是连接等操作,流处理系统需要对流入的消息进行分段,然后基于每一段数据进行聚合或是连接等操作。 消息的分段即称为窗口,流处理系统支持的窗口有很多类型,最常见的就是时间窗口,基于时间间隔对消息进行分段处理。本节主要介绍Fl 阅读全文
posted @ 2019-01-02 15:52 大数据从业者FelixZh 阅读(5005) 评论(0) 推荐(0)
摘要:January 23, 2018 - Apache Flink, Flink Features Stefan Richter and Chris Ward Apache Flink was purpose-built for stateful stream processing. Let’s qui 阅读全文
posted @ 2018-12-01 15:01 大数据从业者FelixZh 阅读(375) 评论(0) 推荐(0)
摘要:January 11, 2018 - Apache Flink Robert Metzger and Chris Ward A favorite session from Flink Forward Berlin 2017 was Robert Metzger’s “Keep It Going: H 阅读全文
posted @ 2018-11-30 18:02 大数据从业者FelixZh 阅读(453) 评论(0) 推荐(0)
摘要:could accomplish with Flink back at Twitter. I had an application in mind that I knew I could make more efficient by a huge factor if I could use the 阅读全文
posted @ 2018-11-10 15:59 大数据从业者FelixZh 阅读(801) 评论(0) 推荐(0)
摘要:Requirements Software Requirements Flink runs on all UNIX-like environments, e.g. Linux, Mac OS X, and Cygwin (for Windows) and expects the cluster to 阅读全文
posted @ 2018-09-26 17:59 大数据从业者FelixZh 阅读(385) 评论(0) 推荐(0)
摘要:Tumbing Windows:滚动窗口,窗口之间时间点不重叠。它是按照固定的时间,或固定的事件个数划分的,分别可以叫做滚动时间窗口和滚动事件窗口。Sliding Windows:滑动窗口,窗口之间时间点存在重叠。对于某些应用,它们需要的时间是不间断的,需要平滑的进行窗口聚合。 例如,可以每30s记 阅读全文
posted @ 2018-09-25 09:56 大数据从业者FelixZh 阅读(1442) 评论(0) 推荐(1)
摘要:Window是无限数据流处理的核心,Window将一个无限的stream拆分成有限大小的”buckets”桶,我们可以在这些桶上做计算操作。本文主要聚焦于在Flink中如何进行窗口操作,以及程序员如何从window提供的功能中获得最大的收益。 窗口化的Flink程序的一般结构如下,第一个代码段中是分 阅读全文
posted @ 2018-09-25 09:52 大数据从业者FelixZh 阅读(2437) 评论(0) 推荐(0)
摘要:https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/event_timestamp_extractors.html 根据官网描述,Flink提供预定义的时间戳提取/水位线发射器。如下: Flink provides abst 阅读全文
posted @ 2018-09-21 17:39 大数据从业者FelixZh 阅读(783) 评论(0) 推荐(0)
摘要:If you are building a Realtime streaming application, Event Time processing is one of the features that you will have to use sooner or later. Since in 阅读全文
posted @ 2018-09-21 16:29 大数据从业者FelixZh 阅读(859) 评论(0) 推荐(0)
摘要:前言 最新开始捣鼓flink,fucking the code之前,编译是第一步。 编译环境 win7 java maven 编译步骤 https://ci.apache.org/projects/flink/flink-docs-release-1.6/start/building.html 官方 阅读全文
posted @ 2018-09-21 11:09 大数据从业者FelixZh 阅读(3751) 评论(1) 推荐(0)

大数据从业者