随笔分类 - Flink
1
摘要:10、Flink join 1、Regular Joins 将两个关联表长存再状态中,可以一直关联上 会导致状态越来越大 和批处理关联结果是一样的 -- 创建学生表流表,数据再kafka中 drop table student_join; CREATE TABLE student_join ( id
阅读全文
摘要:8、优化 1、MiniBatch 聚合 flink默认是每一条数据都会取更新状态 MiniBatch :缓存一批数据一起更新状态,优点:增加吞吐量,缺点:增加延迟- 开启MiniBatch -- sql中开启 -- 开启 set table.exec.mini-batch.enabled=true;
阅读全文
摘要:6、Flink SQl 语法 1、查询语句 1、hint 在对表进行查询的是偶动态修改表的属性 -- 创建表 CREATE TABLE word ( lines STRING ) WITH ( 'connector' = 'kafka', 'topic' = 'word', 'properties.
阅读全文
摘要:4、Flink SQl 客户端 1、启动一个flink的 集群 可以使用flink独立集群 也可以使用yarn-session.sh # 启动一个flinkyarn-sesion集群 yarn-sesion.sh -d 2、启动sql-client sql-client.sh 3、测试命令行 --
阅读全文
摘要:2、format 1、json json格式表结构按照字段名和类型进行映射 增加依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-json</artifactId> <version>1.15.0</versi
阅读全文
摘要:Flink SQL flink 官网 https://nightlies.apache.org/flink/flink-docsmaster/zh/docs/connectors/table/datagen/ flink sql版本的WordCount package com.wt.flink.sq
阅读全文
摘要:Flink-core小总结 1. 实时计算和离线计算 1.1 离线计算 离线计算的处理数据是固定的 离线计算是有延时的,T+1 离线计算是数据处理完输出结果,只是输出最终结果 离线计算相对可以处理复杂的计算 1.2 实时计算 实时计算是实时的处理数据,数据从流入到计算出结果延迟低 实时计算是输出连续
阅读全文
摘要:Flink-Exactly Once(如何保证数据的唯一性和不重复!) kafka中如何保证数据不丢失 1. kafka中如何保证数据不丢失 2. 向kafka中sink数据 package com.wt.flink.sink import org.apache.flink.api.common.s
阅读全文
摘要:状态+checkpoint(重点) 状态 flink用于保存之前计算结果的机制 flink会为每一个key保存一个状态 常用的sum(需要保存之前的计算结果) window(需要保存一段时间内的数据)内部都是有状态的 flink也提供了几种查用的状态类 valueState: 单值状态,为每一个ke
阅读全文
摘要:Flink process(底层)(windowprocess可以获取到时间) 1. process package com.wt.flink.core import org.apache.flink.configuration.Configuration import org.apache.fli
阅读全文
摘要:练习-统计卡口通过的车辆数量(及提交到集群中的问题) 统计卡口查流量 1、统计最近15分分钟的车流量 2、每隔5分钟统计一次 3、使用事件时间 4、数据源使用kafka 5、将统计好的结果保存到mysql中 1、创建kafka生产者生产几条数据 #创建一个Topic kafka-topics.sh
阅读全文
摘要:Flink-窗口(处理时间,count统计窗口,session回话窗口) * 时间窗口 * SlidingEventTimeWindows: 滑动的事件时间窗口 * SlidingProcessingTimeWindows: 滑动的处理时间窗口 * TumblingEventTimeWindows:
阅读全文
摘要:Flink -time(处理时间,事件时间,水位线) 1. flink基石 2. Time 3. 统计时间 package com.wt.flink.core import org.apache.flink.streaming.api.scala._ import org.apache.flink.
阅读全文
摘要:Flink-任务需要申请的资源和并行度有关,和task的数量没有关系 1. 非Flink的需要5个task,如下: 但是在Flink中采用共享模式 在代码中设置并行度为==2== package com.wt.flink.core import org.apache.flink.streaming.
阅读全文
摘要:FLINK on YARN 将flink的任务提交到yarn上运行 1、可以先关闭flink的独立集群 stop-cluster.sh 2、配置HADOOP_CLASSPATH vim /etc/profile # 增加 export HADOOP_CLASSPATH=`hadoop classpa
阅读全文
摘要:FLink集群搭建 独立集群 独立集群不需要依赖任何框架,独立运行 1、上传解压配置环境变量 tar -xvf flink-1.15.0-bin-scala_2.12.tgz vim /etc/profile 2、修改配置文件 vim conf/flink-conf.yaml jobmanager.
阅读全文
摘要:Flink 题目 从MySql中读取数据,通过Flink处理之后在存储到MySql中 package com.wt.flink.homework import org.apache.flink.streaming.api.functions.source.SourceFunction import
阅读全文
摘要:Flink-java(api) 1. Map package com.wt.flink.tf import org.apache.flink.api.common.functions.MapFunction import org.apache.flink.streaming.api.scala._
阅读全文
摘要:Flink APIs 1. flink apis 2. Flink版的WordCount package com.wt.flink.core import org.apache.flink.streaming.api.scala._ object Demo1WordCount { def main(
阅读全文
摘要:Filnk简介 1. flink和spark的区别 2. 流处理和批处理 3. 无界流和有界流 4. 流处理和批处理 流处理 批处理 5. 离线计算和实时计算的区别 6. 实时计算面临的挑战 1.数据处理唯一性(如何保证数据只处理一次?至少一次?最多一次?) 2.数据处理的及时性(采集的实时数据量太
阅读全文
1