随笔分类 -  Flink

1
摘要:0. 背景 本文基于Flink 1.12; 本文将沿着从程序开发到任务执行这条主线涉及到的核心类做简要解析; 1. 代码编写阶段 1.1. DataStream DataStream描述的是具有相同类型的数据流,其提供了多种对流数据进行转换的接口。算子的底层是通过具体的Transformation实 阅读全文
posted @ 2021-09-14 00:10 王大咩的图书馆 阅读(263) 评论(0) 推荐(0) 编辑
摘要:0. 说明 本文基于Flink 1.12; 本文是在阅读源码过程结合自己理解所写,不一定正确,欢迎大伙留言指出; 1. 集群部署 1.1. 部署方式 Flink集群部署可以简要的分为以下两种方式: 直接部署在服务器上(物理机、Kubernetes、docker等); 结合其他资源调度框架,如on Y 阅读全文
posted @ 2021-08-30 01:42 王大咩的图书馆 阅读(1002) 评论(0) 推荐(0) 编辑
摘要:0. 说明 基于Flink 1.12 1. 背景知识 1.1 Actor模型 Flink底层RPC是通过AKKA实现的,AKKA是基于Actor模型实现的框架。下面,将大致介绍一下actor模型。 在Actor模型中,一切事物都是actor,一个actor是一个基本的计算单元,每个actor是完全隔 阅读全文
posted @ 2021-07-21 02:32 王大咩的图书馆 阅读(795) 评论(0) 推荐(0) 编辑
摘要:1. 环境 本博客基于window10家庭版,cygwin的的安装过程可以参考这篇**文章**。 本文相对简单,集中在cygwin环境中启动flink时遇到的几个问题。 2. 问题 执行start-cluster.sh脚本报错 原因是脚本编辑生成的window格式,换成Unix就可以了。这个问题涉及 阅读全文
posted @ 2020-12-20 15:27 王大咩的图书馆 阅读(679) 评论(0) 推荐(1) 编辑
摘要:1. 环境 window10 家庭版; JDK 1.8 maven 3.2.5 Flink源码 IDEA以及安装scala插件 说明:Flink获取的方式可以参考**阅读GitHub源码的正确打开方式**,通过这种方式可以使用git切换版本以及查看提交记录,极大方便我们根据需要编译flink。 2. 阅读全文
posted @ 2020-12-17 23:56 王大咩的图书馆 阅读(758) 评论(0) 推荐(0) 编辑
摘要:1、前言 Flink作业提交到Yarn上之后,后续的AM的生成、Job的处理过程和Flink基本没什么关系了,但是为大致了解Flink on yarn的Per-Job模式的整体过程,这里还是将这系列博客归到Flink源码阅读系列了,本系列博客计划三篇。 本文着重分析submitApplication 阅读全文
posted @ 2020-05-11 23:58 王大咩的图书馆 阅读(1307) 评论(0) 推荐(0) 编辑
摘要:前言 环境: JDK 1.8+Flink 1.6+Hadoop 2.7.3 文中若有表述不正确,欢迎大伙留言指出,谢谢! 1、现象 使用yarn-session在yarn上启动flink集群并提交任务后,在Flink Web UI 上发现任务的state个数每十分钟左右会从0到10左右后又重复从0开 阅读全文
posted @ 2019-12-22 22:45 王大咩的图书馆 阅读(2903) 评论(0) 推荐(3) 编辑
摘要:前言 本文主要译自Flink Forward 2017的柏林站中Robert Metzger的有关集群规划的How to size your flink cluster一文。该文中主要是考虑网络资源,博主结合自己的使用经验对文中省略的做了一定补充,同时也非常欢迎大伙留言补充。 本文非直译,原文链接如 阅读全文
posted @ 2019-12-03 00:26 王大咩的图书馆 阅读(3276) 评论(0) 推荐(1) 编辑
摘要:前言 本文是结合Flink官网,个人理解所得,若是有误欢迎留言指出,谢谢!文中图皆来自官网(链接[1])。 本文将随着下面这个问题展开,针对该问题更为生动的解释可以参见金竹老师的分享(链接[2])。 SQL适合流计算场景吗? 对于流计算,每一条数据的到来都会触发一次查询产生一个结果,并发射出去。我们 阅读全文
posted @ 2019-11-08 00:35 王大咩的图书馆 阅读(5596) 评论(0) 推荐(1) 编辑
摘要:前言 在Flink原理——容错机制一文中,已对checkpoint的机制有了较为基础的介绍,本文着重从源码方面去分析checkpoint的过程。当然本文只是分析做checkpoint的调度过程,只是尽量弄清楚整体的逻辑,没有弄清楚其实现细节,还是有遗憾的,后期还是努力去分析实现细节。文中若是有误,欢 阅读全文
posted @ 2019-10-30 02:33 王大咩的图书馆 阅读(1628) 评论(1) 推荐(0) 编辑
摘要:1、前言 本文是基于Flink官网上Asynchronous I/O的介绍结合自己的理解写成的,若有不正确的欢迎大伙留言交流,谢谢! 2、Asynchronous I/O简介 将Flink用于流计算时,若涉及到和外部系统进行交互,如利用Flink从数据库中读取数据,这种需要获取I/O的场景时,我们需 阅读全文
posted @ 2019-10-17 01:10 王大咩的图书馆 阅读(1953) 评论(0) 推荐(0) 编辑
摘要:一、前言 个人感觉学习Flink其实最不应该错过的博文是Flink社区的博文系列,里面的文章是不会让人失望的。强烈安利:https://ververica.cn/developers-resources/。 本文是自己第一次尝试写源码阅读的文章,会努力将原理和源码实现流程结合起来。文中有几个点目前也 阅读全文
posted @ 2019-10-15 01:58 王大咩的图书馆 阅读(5995) 评论(0) 推荐(0) 编辑
摘要:1、前言 本文是在《如何计算实时热门商品》[1]一文上做的扩展,仅在功能上验证了利用Flink消费Kafka数据,把处理后的数据写入到HBase的流程,其具体性能未做调优。此外,文中并未就Flink处理逻辑做过多的分析,只因引文(若不特殊说明,文中引文皆指《如何计算实时热门商品》一文)中写的很详细了 阅读全文
posted @ 2019-09-30 00:28 王大咩的图书馆 阅读(4314) 评论(0) 推荐(0) 编辑
摘要:本文是博主阅读Flink官方文档以及《Flink基础教程》后结合自己理解所写,若有表达有误的地方欢迎大伙留言指出。 1. 前言 流式计算分为有状态和无状态两种情况,所谓状态就是计算过程中的中间值。对于无状态计算,会独立观察每个独立事件,并根据最后一个事件输出结果。什么意思?大白话举例:对于一个流式系 阅读全文
posted @ 2019-08-21 01:51 王大咩的图书馆 阅读(4821) 评论(0) 推荐(0) 编辑
摘要:本文是博主阅读官网文档、博客及书籍后自己所思所得,若是存在有误的地方,欢迎留言分享,谢谢! 一、任务调度 Flink是通过task slot的来定义执行资源的,为优化资源的利用率,Flink通过slot共享,可以将多个连续的task任务组成的一个pipeline放在一个slot中运行。当任务并行度> 阅读全文
posted @ 2019-08-11 20:05 王大咩的图书馆 阅读(4224) 评论(0) 推荐(0) 编辑
摘要:本文是参考官方文档结合自己的理解写的,所引用文献均已指明来源,若侵权请留言告知,我会立马删除。此外,若是表达欠妥的地方,欢迎大伙留言指出。 前言 在上一篇博客Flink原理(二) ——资源一文中已简要说了在Flink集群中资源的分配情况,这篇博客尝试从定义算子之后,任务是如何分配的,以及任务是如何使 阅读全文
posted @ 2019-08-04 16:10 王大咩的图书馆 阅读(9580) 评论(0) 推荐(0) 编辑
摘要:前言 本文主要是想简要说明Flink在集群部署、任务提交、任务运行过程中资源情况,若表述有误欢迎大伙留言分享,非常感谢! 一、集群部署阶段 集群部署这里指的是Flink standalone模式,因为在Yarn模式(包括session、single job模式也成Per-job模式)是可以仅通过Fl 阅读全文
posted @ 2019-07-28 23:05 王大咩的图书馆 阅读(3315) 评论(0) 推荐(0) 编辑
摘要:Flink系列博客,基于Flink1.6,打算分为三部分:原理、源码、实例以及API使用分析,后期等系列博客完成后再弄一个目录。 该系列博客是我自己学习过程中的一些理解,若有不正确、不准确的地方欢迎大伙留言分享。文中引用均已标注,若有侵权,请联系我,立马删除! 1、前言 在讲Flink基本结构之前, 阅读全文
posted @ 2019-07-25 00:44 王大咩的图书馆 阅读(2325) 评论(0) 推荐(0) 编辑
摘要:自嘲 以前觉得阅读源码是多么牛掰的事,曾经也心动的想去看,于是就兴冲冲地去上网百度怎么看源码,没有找到适合自己的,也关键是自己没有坚持吧,然后就没有然后了(要是有捂脸表情包就好了,此处省略一百个!)。最近因工作需要,也开始看了。本文仅本人阅读源码过程对应该怎么看的一些想法,打算把自己看源码的方法方式 阅读全文
posted @ 2019-07-12 23:33 王大咩的图书馆 阅读(654) 评论(0) 推荐(0) 编辑
摘要:本文仅是自己看书、学习过程中的个人总结,刚接触流式,视野面比较窄,不喜勿喷,欢迎评论交流。 1、为什么是流式? 为什么是流式而不是流式系统这样的词语?流式系统在我的印象中是相对批处理系统而言的,用来处理流数据,实现数据处理功能的一个系统,而流式一词提醒我要以数据产生的方式去看待数据和以及处理过程,即 阅读全文
posted @ 2019-07-02 23:47 王大咩的图书馆 阅读(603) 评论(0) 推荐(0) 编辑

1