2022 年 4月 13 日随笔档案 - yanqi_vip

|NO.Z.00021|——————————|^^ 配置 ^^|——|Hadoop&OLAP_ClickHouse.V02|——|ClickHouse.v02|ClickHouse：ClickHouse链接MySQL|

摘要：一、ClickHouse链接mysql ### mysql说明 ~~~ MySQL 引擎可以对存储在远程 MySQL 服务器上的数据执行 SELECT 查询。 ### 调用格式： ~~~ MySQL('host:port', 'database', 'table', 'user', 'passwor 阅读全文

posted @ 2022-04-13 15:42 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00020|——————————|^^ 配置 ^^|——|Hadoop&OLAP_ClickHouse.V01|——|ClickHouse.v01|ClickHouse：ClickHouse链接HDFS|

摘要：一、HDFS ### HDFS ~~~ 该引擎提供了集成 Apache Hadoop 生态系统通过允许管理数据 HDFS通过ClickHouse. ~~~ 这个引擎是相似的到文件和 URL 引擎，但提供Hadoop特定的功能。 ### 用途 ~~~ 该 URI 参数是HDFS中的整个文件URI。阅读全文

posted @ 2022-04-13 15:41 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00019|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:41 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V15|——|ClickHouse.v15|MergeTree家族表引擎|CollapsingMergeTree|

摘要：一、MergeTree家族表引擎：CollapsingMergeTree ### CollapsingMergeTree ~~~ # 以增代删： ~~~ 说明： yandex官方给出的介绍是CollapsingMergeTree 会异步的删除（折叠） ~~~ 这些除了特定列 Sign 有 1 和 - 阅读全文

posted @ 2022-04-13 15:40 yanqi_vip 阅读(55) 评论(0) 推荐(0)

|NO.Z.00017|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V14|——|ClickHouse.v14|MergeTree家族表引擎|AggregateMergeTree|

摘要：一、MergeTree家族表引擎：AggregateMergeTree ### AggregateMergeTree ~~~ 说明：该引擎继承自 MergeTree，并改变了数据片段的合并逻辑。 ~~~ ClickHouse 会将相同主键的所有行（在一个数据片段内）替换为单个存储一系列聚合函数状态阅读全文

posted @ 2022-04-13 15:39 yanqi_vip 阅读(85) 评论(0) 推荐(0)

|NO.Z.00016|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V13|——|ClickHouse.v13|MergeTree家族表引擎|SummingMergeTree|

摘要：一、MergeTree家族表引擎：SummingMergeTree ### SummingMergeTree ~~~ 该引擎继承自 MergeTree。区别在于，当合并 SummingMergeTree 表的数据片段时， ~~~ ClickHouse 会把所有具有相同聚合数据的条件Key的行合并为一阅读全文

posted @ 2022-04-13 15:38 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00014|——————————|^^ 配置 ^^|——|Hadoop&OLAP_ClickHouse.V11|——|ClickHouse.v11|表引擎|MergeTree|存储策略|HOT/COLD策略|

摘要：一、HOT/COLD策略 ### 配置方式在config.xml配置文件中指定： ~~~ # 在集群主机上config.xml配置JBOD策略 [root@hadoop01 ~]# vim /etc/clickhouse-server/config.xml ~~~ 在config.xml文件最后一行阅读全文

posted @ 2022-04-13 15:37 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00015|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V12|——|ClickHouse.v12|MergeTree家族表引擎|ReplacingMergeTree|

摘要：一、MergeTree家族表引擎：MergeTree家族表引擎 ### ReplacingMergeTree ~~~ 这个引擎是在 MergeTree 的基础上，添加了“处理重复数据”的功能， ~~~ 该引擎和MergeTree的不同之处在于它会删除具有相同主键的重复项。 ### 特点： ~~~ 使阅读全文

posted @ 2022-04-13 15:37 yanqi_vip 阅读(35) 评论(0) 推荐(0)

|NO.Z.00012|——————————|^^ 配置 ^^|——|Hadoop&OLAP_ClickHouse.V09|——|ClickHouse.v09|表引擎|MergeTree|存储策略|默认策略|

摘要：一、MergeTree存储策略配置 ### 整体配置：配置mergetree存储配置方案 ~~~ # 所有主机创建mergetree存储目录 [root@hadoop01 ~]# mkdir -p /var/lib/clickhouse/chbase/colddata [root@hadoop01 阅读全文

posted @ 2022-04-13 15:36 yanqi_vip 阅读(59) 评论(0) 推荐(0)

|NO.Z.00013|——————————|^^ 配置 ^^|——|Hadoop&OLAP_ClickHouse.V10|——|ClickHouse.v10|表引擎|MergeTree|MergeTree|存储策略|JBOC策略|

摘要：一、JBOD策略 ### 配置方式在config.xml配置文件中指定： ~~~ # 在集群主机上config.xml配置JBOD策略 [root@hadoop01 ~]# vim /etc/clickhouse-server/config.xml ~~~ 在config.xml文件最后一行：</y 阅读全文

posted @ 2022-04-13 15:36 yanqi_vip 阅读(57) 评论(0) 推荐(0)

|NO.Z.00010|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V07|——|ClickHouse.v07|表引擎|MergeTree|数据标记|分区/索引/标记|压缩协同|

摘要：一、数据标记 ### 数据标记 ~~~ .mrk文件 ~~~ 将以及索引primary.idx和数据文件.bin建立映射关系 ### 通用用hits_v1表说明： ~~~ 数据标记和索引区间是对齐的，根据索引区间的下标编号， ~~~ 就能找到数据标记索引编号和数据标记数值相同 ~~~ 每一个[Co 阅读全文

posted @ 2022-04-13 15:35 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V08|——|ClickHouse.v08|表引擎|MergeTree|MergTreeTTL|

摘要：一、MergTree的TTL ### MergTree的TTL ~~~ TTL：time to live 数据存活时间。TTL既可以设置在表上，也可以设置在列上。 ~~~ TTL指定的时间到期后则删除相应的表或列，如果同时设置了TTL，则根据先过期时间删除相应数据。 ### 用法： ~~~ TTL 阅读全文

posted @ 2022-04-13 15:35 yanqi_vip 阅读(44) 评论(0) 推荐(0)

|NO.Z.00007|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V04|——|ClickHouse.v04|表引擎|MergeTree|数据分区|

摘要：一、ClickHouse表引擎&MergeTree数据分区 ### 数据分区 ~~~ 数据是以分区目录的形式组织的，每个分区独立分开存储。 ~~~ 这种形式，查询数据时，可以有效的跳过无用的数据文件。 ~~~ 数据分区的规则分区键的取值生成分区ID分区根据ID决定。 ~~~ 根据分区键的数据类型不同阅读全文

posted @ 2022-04-13 15:34 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00008|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V05|——|ClickHouse.v05|表引擎|MergeTree|索引|

摘要：一、索引：一级索引 ### 一级索引 ~~~ 文件：primary.idx ~~~ MergeTree的主键使用Primary Key定义，主键定义之后， ~~~ MergeTree会根据index_granularity间隔(默认8192)为数据生成一级索引并保存至primary.idx文件中。阅读全文

posted @ 2022-04-13 15:34 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00009|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V06|——|ClickHouse.v06|表引擎|MergeTree|数据存储|

摘要：一、数据存储 ### 数据存储 ~~~ 表由按主键排序的数据片段组成。 ~~~ 当数据被插入到表中时，会分成数据片段并按主键的字典序排序。 ~~~ 例如，主键是 (CounterID, Date) 时，片段中数据按 CounterID 排序， ~~~ 具有相同 CounterID 的部分按 Da 阅读全文

posted @ 2022-04-13 15:34 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00006|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V03|——|ClickHouse.v03|表引擎|MergeTree|创建方式|存储结构|

摘要：一、MergeTree ### MergeTree ~~~ Clickhouse 中最强大的表引擎当属 MergeTree （合并树） ~~~ 引擎及该系列（*MergeTree）中的其他引擎。 ~~~ MergeTree 引擎系列的基本理念如下。 ~~~ 当你有巨量数据要插入到表中，你要高效地一批阅读全文

posted @ 2022-04-13 15:33 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00004|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V01|——|ClickHouse.v01|数据类型|

摘要：一、数据类型 ### 数据类型说明 ~~~ 支持DML， ~~~ 为了提高性能，较传统数据库而言，clickhouse提供了复合数据类型。 ~~~ ClickHouse的Upadate和Delete是由Alter变种实现。二、整型 ### 整形说明 ~~~ 固定长度的整型，包括有符号整型或无符号整阅读全文

posted @ 2022-04-13 15:32 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00005|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V02|——|ClickHouse.v02|表引擎日志|Memory|Merge|

摘要：一、表引擎 ### 表引擎（即表的类型）决定了： ~~~ 数据的存储方式和位置，写到哪里以及从哪里读取数据 ~~~ 支持哪些查询以及如何支持。 ~~~ 并发数据访问。 ~~~ 索引的使用（如果存在）。 ~~~ 是否可以执行多线程请求。 ~~~ 数据复制参数。 ~~~ # ClickHouse的表引擎阅读全文

posted @ 2022-04-13 15:32 yanqi_vip 阅读(17) 评论(0) 推荐(0)

|NO.Z.00002|——————————|^^ 部署 ^^|——|Hadoop&OLAP_ClickHouse.V02|——|ClickHouse.v02|单击模式&集群模式|

摘要：一、ClickHouse下载 ### 下载地址 ~~~ 官网：https://clickhouse.yandex/ ~~~ 下载地址：http://repo.red-soft.biz/repos/clickhouse/stable/el6/ 二、ClickHouse单击模式安装 ### 单机模式：h 阅读全文

posted @ 2022-04-13 15:31 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00003|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:31 yanqi_vip 阅读(5) 评论(0) 推荐(0)

|NO.Z.00001|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V01|——|ClickHouse.v01|概述|

摘要：一、ClickHouse概述 ### ClickHouse概述 ~~~ ClickHouse是一个快速开源的OLAP数据库管理系统，它是面向列的， ~~~ 允许使用SQL查询实时生成分析报告。 ~~~ 随着物联网IOT时代的来临，IOT设备感知和报警存储的数据越来越大， ~~~ 有用的价值数据需要数阅读全文

posted @ 2022-04-13 15:30 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00000|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:30 yanqi_vip 阅读(14) 评论(0) 推荐(0)

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:29 yanqi_vip 阅读(9) 评论(0) 推荐(0)

|NO.Z.00068|——————————|BigDataEnd|——|Hadoop&Flink.V01|——|Flink.v01|Flink SQL|作业提交|

摘要：一、作业提交 ### Flink的jar文件并不是Flink集群的可执行文件，需要经过转换之后提交给集群转换过程： ~~~ 在Flink Client中，通过反射启动jar中的main函数， ~~~ 生成Flink StreamGraph和JobGraph。将JobGraph提交给Flink集群。阅读全文

posted @ 2022-04-13 15:28 yanqi_vip 阅读(46) 评论(0) 推荐(0)

|NO.Z.00067|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:28 yanqi_vip 阅读(11) 评论(0) 推荐(0)

|NO.Z.00069|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:28 yanqi_vip 阅读(13) 评论(0) 推荐(0)

|NO.Z.00066|——————————|BigDataEnd|——|Hadoop&Flink.V05|——|Flink.v04|Flink SQL|Flink SQL输出表|输出到kafka|

摘要：一、FlinkSQL输出表：输出到Kafka ### 输出到kafka ~~~ # 往kafka上输出表 DataStreamSource<String> data = env.addSource(new SourceFunction<String> () { @Override public vo 阅读全文

posted @ 2022-04-13 15:27 yanqi_vip 阅读(188) 评论(0) 推荐(0)

|NO.Z.00065|——————————|BigDataEnd|——|Hadoop&Flink.V04|——|Flink.v04|Flink SQL|Flink SQL输出表|输出到文件|

摘要：一、输出表：输出到文件 ### 输出到文件： tEnv.connect(new FileSystem().path("E:\\data\\out.txt")) .withFormat(new Csv()) .withSchema(new Schema().field("name",DataTypes 阅读全文

posted @ 2022-04-13 15:26 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00064|——————————|BigDataEnd|——|Hadoop&Flink.V03|——|Flink.v03|Flink SQL|Flink SQL查询数据|Table API|SQL|

摘要：一、FlinkSQL：查询数据 ### Table API ~~~ 官网：https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/tableApi.htmlselect/filter/as Table filter 阅读全文

posted @ 2022-04-13 15:25 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00063|——————————|BigDataEnd|——|Hadoop&Flink.V02|——|Flink.v02|Flink SQL|Flink SQL外部链接|从文件获取数据流|从kafka中获取数据|

摘要：一、外部链接：Connectors Name VersIon Maven dependency SQL CIIentJAR Filesystem Built-in Built-in Elasticsearch 6 flink-connector-elasticsearch6 Download Ela 阅读全文

posted @ 2022-04-13 15:24 yanqi_vip 阅读(81) 评论(0) 推荐(0)

|NO.Z.00062|——————————|BigDataEnd|——|Hadoop&Flink.V01|——|Flink.v01|Flink SQL|什么是Table API|Flink SQL|入门代码|

摘要：一、FlinkSQL ### 什么是 Table API 和 Flink SQL ~~~ Flink 本身是批流统一的处理框架，所以 Table API 和 SQL，就是批流统一的上层处理 API。 ~~~ Table API 是一套内嵌在 Java 和 Scala 语言中的查询 API，它允许我们阅读全文

posted @ 2022-04-13 15:24 yanqi_vip 阅读(65) 评论(0) 推荐(0)

|NO.Z.00061|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:23 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00060|——————————|BigDataEnd|——|Hadoop&Flink.V15|——|Flink.v15|Flink CEP|Flink CEP案例|超时未支付|

摘要：一、CEP案例：超时未支付 ### CEP案例：超时未支付 ~~~ 案例3：超时未支付 ~~~ 需求：找出下单后10分钟没有支付的订单二、实现思路： ### 1、数据源： new PayEvent(1L, "create", 1597905234000L), new PayEvent(1L, "p 阅读全文

posted @ 2022-04-13 15:23 yanqi_vip 阅读(46) 评论(0) 推荐(0)

|NO.Z.00058|——————————|BigDataEnd|——|Hadoop&Flink.V13|——|Flink.v13|Flink CEP|Flink CEP案例|恶意登录测试|

摘要：一、Flink CEP开发流程 ### Flink CEP 开发流程： ~~~ DataSource 中的数据转换为 DataStream；watermark、keyby ~~~ 定义 Pattern，并将 DataStream 和 Pattern 组合转换为 PatternStream； ~~~ 阅读全文

posted @ 2022-04-13 15:22 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00059|——————————|BigDataEnd|——|Hadoop&Flink.V14|——|Flink.v14|Flink CEP|Flink CEP案例|检测交易|活跃用户|

摘要：一、CEP案例：检测交易活跃用户 ### 案例说明 ~~~ 案例2：检测交易活跃用户 ~~~ 需求：找出24小时内，至少5次有效交易的用户：二、思路： ### 数据源： new ActiveUserBean("100XX", 0.0D, 1597905234000L), new ActiveUse 阅读全文

posted @ 2022-04-13 15:22 yanqi_vip 阅读(72) 评论(0) 推荐(0)

|NO.Z.00056|——————————|BigDataEnd|——|Hadoop&Flink.V11|——|Flink.v11|Flink CEP|Flink CEP基础|个体模式|模式序列|模式检测|匹配事件提取|超时事件提取|

摘要：一、Pattern API ### PatternAPI ~~~ 处理事件的规则，被叫作模式（Pattern）。 ~~~ Flink CEP提供了Pattern API用于对输入流数据进行复杂事件规则定义， ~~~ 用来提取符合规则的事件序列。二、模式大致分为三类： ### 个体模式（Indivi 阅读全文

posted @ 2022-04-13 15:21 yanqi_vip 阅读(50) 评论(0) 推荐(0)

|NO.Z.00057|——————————|BigDataEnd|——|Hadoop&Flink.V12|——|Flink.v12|Flink CEP|NFA 非确定有限自动机|

摘要：一、NFA：非确定有限自动机 ### NFA：非确定有限自动机 ~~~ FlinkCEP在运行时会将用户的逻辑转化成这样的一个NFA Graph (nfa对象) ~~~ 所以有限状态机的工作过程，就是从开始状态，根据不同的输入，自动进行状态转换的过程。 ~~~ 上图中的状态机的功能，是检测二进制数是阅读全文

posted @ 2022-04-13 15:21 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00054|——————————|BigDataEnd|——|Hadoop&Flink.V09|——|Flink.v09|Flink Connector|kafka|Flink kafka Producer|

摘要：一、Flink kafka Producer ### 代码执行流程 ~~~ nc ~~~ 代码接受nc ~~~ 把接收到的nc的数据，给到kafka flink kafka producer 二、编程代码 ### 编程代码 package com.yanqi.flink; import org.ap 阅读全文

posted @ 2022-04-13 15:20 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00055|——————————|BigDataEnd|——|Hadoop&Flink.V10|——|Flink.v10|Flink CEP|Flink CEP基础|

摘要：一、Flink CEP ### FlinkCEP ~~~ CEP 即Complex Event Processing - 复杂事件处理， ~~~ Flink CEP 是在 Flink 中实现的复杂时间处理(CEP)库。处理事件的规则，被叫做“模式”(Pattern)， ~~~ Flink CEP 提阅读全文

posted @ 2022-04-13 15:20 yanqi_vip 阅读(41) 评论(0) 推荐(0)

|NO.Z.00052|——————————|BigDataEnd|——|Hadoop&Flink.V07|——|Flink.v07|Flink Connector|kafka|消费策略|

摘要：一、消费策略 ### 消费策略 ~~~ # setStartFromGroupOffsets()【默认消费策略】 ~~~ 默认读取上次保存的offset信息 ~~~ 如果是应用第一次启动，读取不到上次的offset信息， ~~~ 则会根据这个参数auto.offset.reset的值来进行消费数据阅读全文

posted @ 2022-04-13 15:19 yanqi_vip 阅读(46) 评论(0) 推荐(0)

|NO.Z.00053|——————————|BigDataEnd|——|Hadoop&Flink.V08|——|Flink.v08|Flink Connector|kafka|Kafka consumer offset自动提交|

摘要：一、Kafka consumer offset自动提交： ### kafka consumer offset自动提交 ~~~ # kafka consumer offset自动提交的配置需要根据job是否开启checkpoint来区分 ~~~ checkpoint关闭时： ~~~ checkpoin 阅读全文

posted @ 2022-04-13 15:19 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00051|——————————|BigDataEnd|——|Hadoop&Flink.V06|——|Flink.v06|Flink Connector|kafka|源码理解|源码说明.V4|]

摘要：一、源码提取说明 ### 源码提取说明 ~~~ # 源码提取说明：FlinkKafkaConsumerBase.java ~~~ # 第537~693行 @Override public void open(Configuration configuration) throws Exception 阅读全文

posted @ 2022-04-13 15:18 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00049|——————————|BigDataEnd|——|Hadoop&Flink.V04|——|Flink.v04|Flink Connector|kafka|源码理解|源码说明.V2|

摘要：一、源码提取说明 ### 直接启动consumer ~~~ # 源码提取说明：FlinkKafkaConsumerBase.java ~~~ # 第160~161行 /** The startup mode for the consumer (default is {@link StartupMod 阅读全文

posted @ 2022-04-13 15:17 yanqi_vip 阅读(42) 评论(0) 推荐(0)

|NO.Z.00050|——————————|BigDataEnd|——|Hadoop&Flink.V05|——|Flink.v05|Flink Connector|kafka|源码理解|源码说明.V3|

摘要：一、源码提取说明 ### kafkaFetcher的runFetchLoop方法 ~~~ 此方法为FlinkKafkaConsumer获取数据的主入口，通过一个循环来不断获取kafka broker的数据。 ~~~ # 源码提取说明：KafkaFetcher.java：方法实现 ~~~ # 第124 阅读全文

posted @ 2022-04-13 15:17 yanqi_vip 阅读(41) 评论(0) 推荐(0)

|NO.Z.00046|——————————|BigDataEnd|——|Hadoop&Flink.V01|——|Flink.v01|关于并行度设置|

摘要：一、关于并行度的设置 ### 关于并行度的设置 ~~~ 一个Flink程序由多个Operator组成(source、transformation和 sink)。 ~~~ 一个Operator由多个并行的Task(线程)来执行， ~~~ 一个Operator的并行Task(线程)数目就被称为该Oper 阅读全文

posted @ 2022-04-13 15:16 yanqi_vip 阅读(39) 评论(0) 推荐(0)

|NO.Z.00047|——————————|BigDataEnd|——|Hadoop&Flink.V02|——|Flink.v02|Flink Connector|kafka|源码理解|源码示例|

摘要：一、Flink-Connector (Kafka) ### 源码理解 ~~~ # Funtion：UDF 处理数据的逻辑 ~~~ RichFunction: open/close 管理函数的生命周期的方法 ...RunTimeContext函数的运行时上下文 ~~~ SourceFunction：阅读全文

posted @ 2022-04-13 15:16 yanqi_vip 阅读(47) 评论(0) 推荐(0)

|NO.Z.00048|——————————|BigDataEnd|——|Hadoop&Flink.V03|——|Flink.v03|Flink Connector|kafka|源码理解|源码说明.V1|

摘要：一、源码提取说明 ### flink-kafka 是如何消费的？以及如何分区分配等 ~~~ open方法源码： ### 指定offset提交模式 ~~~ OffsetCommitMode: ~~~ OffsetCommitMode:表示偏移量如何从外部提交回Kafka brokers/ ~~~ Zo 阅读全文

posted @ 2022-04-13 15:16 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&Flink.V11|——|Flink.v11|Flink State|状态原理|原理剖析|状态存储|编程实现|

摘要：一、编程代码实现 ### 编程代码实现：broadcastdemo.java package com.yanqi.state; import org.apache.flink.api.common.functions.FilterFunction; import org.apache.flink.a 阅读全文

posted @ 2022-04-13 15:15 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00045|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:15 yanqi_vip 阅读(6) 评论(0) 推荐(0)

|NO.Z.00043|——————————|BigDataEnd|——|Hadoop&Flink.V10|——|Flink.v10|Flink State|状态原理|原理剖析|状态存储|state文件格式|

摘要：一、state 文件格式 ### state文件格式 ~~~ 当我们创建 state 时，数据是如何保存的呢？ ~~~ 对于不同的 statebackend，有不同的存储格式。 ~~~ 但是都是使用 flink 序列化器，将键值转化为字节数组保存起来。 ~~~ 这里使用 RocksDBStateBa 阅读全文

posted @ 2022-04-13 15:14 yanqi_vip 阅读(65) 评论(0) 推荐(0)

|NO.Z.00042|——————————|BigDataEnd|——|Hadoop&Flink.V09|——|Flink.v09|Flink State|状态原理|原理剖析|状态存储|开启checkpoint|

摘要：一、开启 checkpoint ### 开启checkpoint ~~~ 开启 checkpoint 后， ~~~ state backend 管理的 taskmanager 上的状态数据才会被定期备份到jobmanager 或外部存储， ~~~ 这些状态数据在作业失败恢复时会用到。我们可以通过以阅读全文

posted @ 2022-04-13 15:13 yanqi_vip 阅读(76) 评论(0) 推荐(0)

|NO.Z.00041|——————————|BigDataEnd|——|Hadoop&Flink.V08|——|Flink.v08|Flink State|状态原理原理剖析|状态存储|配置state backend|

摘要：一、配置 state backend ### state backend ~~~ 我们知道 flink 提供了三个 state backend，那么如何配置使用某个 state backend 呢？ ~~~ 默认的配置在 conf/flink-conf.yaml 文件中 state.backend 阅读全文

posted @ 2022-04-13 15:12 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00040|——————————|BigDataEnd|——|Hadoop&Flink.V07|——|Flink.v07|Flink State|状态原理|原理剖析|状态存储|Keyed State|Operator State|

摘要：一、Keyed State & Operator State ### state 分类 ~~~ # Operator State (或者non-keyed state ) ~~~ 每个 Operator state 绑定一个并行 Operator 实例。 ~~~ Kafka Connector 是使阅读全文

posted @ 2022-04-13 15:12 yanqi_vip 阅读(150) 评论(0) 推荐(0)

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&Flink.V05|——|Flink.v05|Flink State|状态原理|原理剖析|广播状态|

摘要：一、广播状态：什么是广播状态？ ### 广播状态说明 ~~~ 所有并行实例，这些实例将它们维持为状态。不广播另一个流的事件， ~~~ 而是将其发送到同一运营商的各个实例，并与广播流的事件一起处理。 ~~~ 新的广播状态非常适合需要加入低吞吐量和高吞吐量流或需要动态更新其处理逻辑的应用程序。 ~~~ 阅读全文

posted @ 2022-04-13 15:11 yanqi_vip 阅读(55) 评论(0) 推荐(0)

|NO.Z.00039|——————————|BigDataEnd|——|Hadoop&Flink.V06|——|Flink.v06|Flink State|状态原理|原理剖析|状态存储|State存储方式|

摘要：一、状态存储（扩展） ### 状态存储 ~~~ Flink 的一个重要特性就是有状态计算(stateful processing)。 ~~~ Flink 提供了简单易用的 API 来存储和获取状态。 ~~~ 但是，我们还是要理解 API 背后的原理，才能更好的使用。 ### State 存储方式：F 阅读全文

posted @ 2022-04-13 15:11 yanqi_vip 阅读(69) 评论(0) 推荐(0)

|NO.Z.00036|——————————|BigDataEnd|——|Hadoop&Flink.V03|——|Flink.v03|Flink State|状态原理|原理剖析|状态类型|

摘要：一、Flink的State--状态原理及原理剖析 ### Flink的state&状态原理及原理剖析 ~~~ State:用来保存计算结果或缓存数据。 ~~~ Sum 二、状态类型 ### 状态类型 ~~~ Flink根据是否需要保存中间结果，把计算分为有状态计算和无状态计算 ~~~ 有状态计算：依阅读全文

posted @ 2022-04-13 15:10 yanqi_vip 阅读(39) 评论(0) 推荐(0)

|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&Flink.V04|——|Flink.v04|Flink State|状态原理|原理剖析|状态描述|

摘要：一、状态描述：状态描述流程 ### 状态描述说明 ~~~ State 既然是暴露给用户的，那么就需要有一些属性需要指定： ~~~ state 名称、val serializer、state type info。 ~~~ 在对应的statebackend中，会去调用对应的create方法获取到stat 阅读全文

posted @ 2022-04-13 15:10 yanqi_vip 阅读(19) 评论(0) 推荐(0)

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&Flink.V02|——|Flink.v02|Flink Time|使用watermark解决|代码实现|

摘要：一、watermark案例 ### 实现步骤： ~~~ 获取数据源 ~~~ 转化 ~~~ 声明水印（watermark） ~~~ 分组聚合，调用window的操作 ~~~ 保存处理结果 ### 注意： ~~~ 当使用EventTimeWindow时，所有的Window在EventTime的时间轴上进阅读全文

posted @ 2022-04-13 15:09 yanqi_vip 阅读(44) 评论(0) 推荐(0)

|NO.Z.00034|——————————|BigDataEnd|——|Hadoop&Flink.V01|——|Flink.v01|Flink Time|Time|数据延迟|参数问题|

摘要：一、Flink Time ### Time ~~~ 在Flink的流式处理中，会涉及到时间的不同概念，如下图所示： ### Flink Time说明 ~~~ # - EventTime[事件时间] ~~~ 事件发生的时间， ~~~ 例如：点击网站上的某个链接的时间， ~~~ 每一条日志都会记录自己的阅读全文

posted @ 2022-04-13 15:08 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00033|——————————|BigDataEnd|——————————————————————————————————————

摘要： NO： Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:07 yanqi_vip 阅读(8) 评论(0) 推荐(0)

|NO.Z.00032|——————————|BigDataEnd|——|Hadoop&Flink.V16|——|Flink.v16|Flink Windows窗口机制|时间窗口Time Window|会话窗口Session Window|

摘要：一、Flink Window窗口机制：时间窗口TimeWindow：会话窗口（Session Window） ### Flink Window窗口机制：时间窗口TimeWindow：会话窗口（Session Window） ~~~ 时间窗口TimeWindow：会话窗口（Session Window 阅读全文

posted @ 2022-04-13 15:06 yanqi_vip 阅读(53) 评论(0) 推荐(0)

|NO.Z.00029|——————————|BigDataEnd|——|Hadoop&Flink.V13|——|Flink.v13|Flink Windows窗口机制|时间窗口Time Window|滚动时间窗口Tumbling window|基于时间驱动|

摘要：一、Flink Window窗口机制 ### 时间窗口TumWindow：基于时间驱动 ~~~ # 场景： ~~~ 我们需要统计每一分钟中用户购买的商品的总数，需要将用户的行为事件按每一分钟进行切分， ~~~ 这种切分被成为翻滚时间窗口（Tumbling Time Window）二、编程代码实现阅读全文

posted @ 2022-04-13 15:05 yanqi_vip 阅读(67) 评论(0) 推荐(0)

|NO.Z.00030|——————————|BigDataEnd|——|Hadoop&Flink.V14|——|Flink.v14|Flink Windows窗口机制|时间窗口Time Window|滚动时间窗口Tumbling window|基于事件驱动|

摘要：一、Flink Window窗口机制：时间窗口（TimeWindow） ### 滚动时间窗口（T目标领Window）基于事件驱动 ~~~ # 场景： ~~~ 当我们想要每100个用户的购买行为作为驱动，那么每当窗口中填满100个”相同”元素了， ~~~ 就会对窗口进行计算。二、编程代码实现 ### 阅读全文

posted @ 2022-04-13 15:05 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00031|——————————|BigDataEnd|——|Hadoop&Flink.V15|——|Flink.v15|Flink Windows窗口机制|时间窗口Time Window|滑动时间窗口Sliding Window|

摘要：一、Flink window窗口机制：滑动时间窗口（Sliding Window） ### Flink window窗口机制：滑动时间窗口（Sliding Window） ~~~ 滑动时间窗口Sliding Window ### 滑动时间窗口说明 ~~~ 滑动窗口是固定窗口的更广义的一种形式，滑动窗阅读全文

posted @ 2022-04-13 15:05 yanqi_vip 阅读(71) 评论(0) 推荐(0)

|NO.Z.00027|——————————|BigDataEnd|——|Hadoop&Flink.V11|——|Flink.v11|API详解|Flink Table API|SQL_API|

摘要：一、Flink Table API和SQL_API ### Flink Table API Flink SQL_API ~~~ Apache Flink提供了两种顶层的关系型API，分别为Table API和SQL， ~~~ Flink通过Table API&SQL实现了批流统一。 ~~~ 其中Ta 阅读全文

posted @ 2022-04-13 15:04 yanqi_vip 阅读(47) 评论(0) 推荐(0)

|NO.Z.00028|——————————|BigDataEnd|——|Hadoop&Flink.V12|——|Flink.v12|Flink Windows窗口机制|时间窗口Time Window|滚动时间窗口Tumbling window|

摘要：一、Flink Window窗口机制 ### Flink Window 背景 ~~~ Flink认为Batch是Streaming的一个特例，因此Flink底层引擎是一个流式引擎， ~~~ 在上面实现了流处理和批处理。而Window就是从Streaming到Batch的桥梁。 ~~~ 通俗讲，Win 阅读全文

posted @ 2022-04-13 15:04 yanqi_vip 阅读(36) 评论(0) 推荐(0)

导航

公告