2022年4月13日

|NO.Z.00021|——————————|^^ 配置 ^^|——|Hadoop&OLAP_ClickHouse.V02|——|ClickHouse.v02|ClickHouse:ClickHouse链接MySQL|

摘要: 一、ClickHouse链接mysql ### mysql说明 ~~~ MySQL 引擎可以对存储在远程 MySQL 服务器上的数据执行 SELECT 查询。 ### 调用格式: ~~~ MySQL('host:port', 'database', 'table', 'user', 'passwor 阅读全文

posted @ 2022-04-13 15:42 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00020|——————————|^^ 配置 ^^|——|Hadoop&OLAP_ClickHouse.V01|——|ClickHouse.v01|ClickHouse:ClickHouse链接HDFS|

摘要: 一、HDFS ### HDFS ~~~ 该引擎提供了集成 Apache Hadoop 生态系统通过允许管理数据 HDFS通过ClickHouse. ~~~ 这个引擎是相似的 到 文件和 URL 引擎,但提供Hadoop特定的功能。 ### 用途 ~~~ 该 URI 参数是HDFS中的整个文件URI。 阅读全文

posted @ 2022-04-13 15:41 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00019|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:41 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V15|——|ClickHouse.v15|MergeTree家族表引擎|CollapsingMergeTree|

摘要: 一、MergeTree家族表引擎:CollapsingMergeTree ### CollapsingMergeTree ~~~ # 以增代删: ~~~ 说明: yandex官方给出的介绍是CollapsingMergeTree 会异步的删除(折叠) ~~~ 这些除了特定列 Sign 有 1 和 - 阅读全文

posted @ 2022-04-13 15:40 yanqi_vip 阅读(55) 评论(0) 推荐(0)

|NO.Z.00017|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V14|——|ClickHouse.v14|MergeTree家族表引擎|AggregateMergeTree|

摘要: 一、MergeTree家族表引擎:AggregateMergeTree ### AggregateMergeTree ~~~ 说明: 该引擎继承自 MergeTree,并改变了数据片段的合并逻辑。 ~~~ ClickHouse 会将相同主键的所有行(在一个数据片段内)替换为单个存储一系列聚合函数状态 阅读全文

posted @ 2022-04-13 15:39 yanqi_vip 阅读(85) 评论(0) 推荐(0)

|NO.Z.00016|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V13|——|ClickHouse.v13|MergeTree家族表引擎|SummingMergeTree|

摘要: 一、MergeTree家族表引擎:SummingMergeTree ### SummingMergeTree ~~~ 该引擎继承自 MergeTree。区别在于,当合并 SummingMergeTree 表的数据片段时, ~~~ ClickHouse 会把所有具有相同聚合数据的条件Key的行合并为一 阅读全文

posted @ 2022-04-13 15:38 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00014|——————————|^^ 配置 ^^|——|Hadoop&OLAP_ClickHouse.V11|——|ClickHouse.v11|表引擎|MergeTree|存储策略|HOT/COLD策略|

摘要: 一、HOT/COLD策略 ### 配置方式在config.xml配置文件中指定: ~~~ # 在集群主机上config.xml配置JBOD策略 [root@hadoop01 ~]# vim /etc/clickhouse-server/config.xml ~~~ 在config.xml文件最后一行 阅读全文

posted @ 2022-04-13 15:37 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00015|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V12|——|ClickHouse.v12|MergeTree家族表引擎|ReplacingMergeTree|

摘要: 一、MergeTree家族表引擎:MergeTree家族表引擎 ### ReplacingMergeTree ~~~ 这个引擎是在 MergeTree 的基础上,添加了“处理重复数据”的功能, ~~~ 该引擎和MergeTree的不同之处在于它会删除具有相同主键的重复项。 ### 特点: ~~~ 使 阅读全文

posted @ 2022-04-13 15:37 yanqi_vip 阅读(35) 评论(0) 推荐(0)

|NO.Z.00012|——————————|^^ 配置 ^^|——|Hadoop&OLAP_ClickHouse.V09|——|ClickHouse.v09|表引擎|MergeTree|存储策略|默认策略|

摘要: 一、MergeTree存储策略配置 ### 整体配置:配置mergetree存储配置方案 ~~~ # 所有主机创建mergetree存储目录 [root@hadoop01 ~]# mkdir -p /var/lib/clickhouse/chbase/colddata [root@hadoop01 阅读全文

posted @ 2022-04-13 15:36 yanqi_vip 阅读(59) 评论(0) 推荐(0)

|NO.Z.00013|——————————|^^ 配置 ^^|——|Hadoop&OLAP_ClickHouse.V10|——|ClickHouse.v10|表引擎|MergeTree|MergeTree|存储策略|JBOC策略|

摘要: 一、JBOD策略 ### 配置方式在config.xml配置文件中指定: ~~~ # 在集群主机上config.xml配置JBOD策略 [root@hadoop01 ~]# vim /etc/clickhouse-server/config.xml ~~~ 在config.xml文件最后一行:</y 阅读全文

posted @ 2022-04-13 15:36 yanqi_vip 阅读(57) 评论(0) 推荐(0)

|NO.Z.00010|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V07|——|ClickHouse.v07|表引擎|MergeTree|数据标记|分区/索引/标记|压缩协同|

摘要: 一、数据标记 ### 数据标记 ~~~ .mrk文件 ~~~ 将以及索引primary.idx和数据文件.bin建立映射关系 ### 通用用hits_v1表说明: ~~~ 数据标记和索引区间是对齐的,根据索引区间的下标编号, ~~~ 就能找到数据标记 索引编号和数据标记数值相同 ~~~ 每一个[Co 阅读全文

posted @ 2022-04-13 15:35 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V08|——|ClickHouse.v08|表引擎|MergeTree|MergTreeTTL|

摘要: 一、MergTree的TTL ### MergTree的TTL ~~~ TTL:time to live 数据存活时间。TTL既可以设置在表上,也可以设置在列上。 ~~~ TTL指定的时间到期后则删除相应的表或列,如果同时设置了TTL,则根据先过期时间删除相应数据。 ### 用法: ~~~ TTL 阅读全文

posted @ 2022-04-13 15:35 yanqi_vip 阅读(44) 评论(0) 推荐(0)

|NO.Z.00007|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V04|——|ClickHouse.v04|表引擎|MergeTree|数据分区|

摘要: 一、ClickHouse表引擎&MergeTree数据分区 ### 数据分区 ~~~ 数据是以分区目录的形式组织的,每个分区独立分开存储。 ~~~ 这种形式,查询数据时,可以有效的跳过无用的数据文件。 ~~~ 数据分区的规则分区键的取值生成分区ID分区根据ID决定。 ~~~ 根据分区键的数据类型不同 阅读全文

posted @ 2022-04-13 15:34 yanqi_vip 阅读(30) 评论(0) 推荐(0)

|NO.Z.00008|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V05|——|ClickHouse.v05|表引擎|MergeTree|索引|

摘要: 一、索引:一级索引 ### 一级索引 ~~~ 文件:primary.idx ~~~ MergeTree的主键使用Primary Key定义,主键定义之后, ~~~ MergeTree会根据index_granularity间隔(默认8192)为数据生成一级索引并保存至primary.idx文件中。 阅读全文

posted @ 2022-04-13 15:34 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00009|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V06|——|ClickHouse.v06|表引擎|MergeTree|数据存储|

摘要: 一、数据存储 ### 数据存储 ~~~ 表由按主键排序的数据 片段 组成。 ~~~ 当数据被插入到表中时,会分成数据片段并按主键的字典序排序。 ~~~ 例如,主键是 (CounterID, Date) 时,片段中数据按 CounterID 排序, ~~~ 具有相同 CounterID 的部分按 Da 阅读全文

posted @ 2022-04-13 15:34 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00006|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V03|——|ClickHouse.v03|表引擎|MergeTree|创建方式|存储结构|

摘要: 一、MergeTree ### MergeTree ~~~ Clickhouse 中最强大的表引擎当属 MergeTree (合并树) ~~~ 引擎及该系列(*MergeTree)中的其他引擎。 ~~~ MergeTree 引擎系列的基本理念如下。 ~~~ 当你有巨量数据要插入到表中,你要高效地一批 阅读全文

posted @ 2022-04-13 15:33 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00004|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V01|——|ClickHouse.v01|数据类型|

摘要: 一、数据类型 ### 数据类型说明 ~~~ 支持DML, ~~~ 为了提高性能,较传统数据库而言,clickhouse提供了复合数据类型。 ~~~ ClickHouse的Upadate和Delete是由Alter变种实现。 二、整型 ### 整形说明 ~~~ 固定长度的整型,包括有符号整型或无符号整 阅读全文

posted @ 2022-04-13 15:32 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00005|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V02|——|ClickHouse.v02|表引擎日志|Memory|Merge|

摘要: 一、表引擎 ### 表引擎(即表的类型)决定了: ~~~ 数据的存储方式和位置,写到哪里以及从哪里读取数据 ~~~ 支持哪些查询以及如何支持。 ~~~ 并发数据访问。 ~~~ 索引的使用(如果存在)。 ~~~ 是否可以执行多线程请求。 ~~~ 数据复制参数。 ~~~ # ClickHouse的表引擎 阅读全文

posted @ 2022-04-13 15:32 yanqi_vip 阅读(17) 评论(0) 推荐(0)

|NO.Z.00002|——————————|^^ 部署 ^^|——|Hadoop&OLAP_ClickHouse.V02|——|ClickHouse.v02|单击模式&集群模式|

摘要: 一、ClickHouse下载 ### 下载地址 ~~~ 官网:https://clickhouse.yandex/ ~~~ 下载地址:http://repo.red-soft.biz/repos/clickhouse/stable/el6/ 二、ClickHouse单击模式安装 ### 单机模式:h 阅读全文

posted @ 2022-04-13 15:31 yanqi_vip 阅读(31) 评论(0) 推荐(0)

|NO.Z.00003|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:31 yanqi_vip 阅读(5) 评论(0) 推荐(0)

|NO.Z.00001|——————————|BigDataEnd|——|Hadoop&OLAP_ClickHouse.V01|——|ClickHouse.v01|概述|

摘要: 一、ClickHouse概述 ### ClickHouse概述 ~~~ ClickHouse是一个快速开源的OLAP数据库管理系统,它是面向列的, ~~~ 允许使用SQL查询实时生成分析报告。 ~~~ 随着物联网IOT时代的来临,IOT设备感知和报警存储的数据越来越大, ~~~ 有用的价值数据需要数 阅读全文

posted @ 2022-04-13 15:30 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:30 yanqi_vip 阅读(14) 评论(0) 推荐(0)

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:29 yanqi_vip 阅读(9) 评论(0) 推荐(0)

|NO.Z.00068|——————————|BigDataEnd|——|Hadoop&Flink.V01|——|Flink.v01|Flink SQL|作业提交|

摘要: 一、作业提交 ### Flink的jar文件并不是Flink集群的可执行文件,需要经过转换之后提交给集群转换过程: ~~~ 在Flink Client中,通过反射启动jar中的main函数, ~~~ 生成Flink StreamGraph和JobGraph。将JobGraph提交给Flink集群。 阅读全文

posted @ 2022-04-13 15:28 yanqi_vip 阅读(46) 评论(0) 推荐(0)

|NO.Z.00067|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:28 yanqi_vip 阅读(11) 评论(0) 推荐(0)

|NO.Z.00069|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:28 yanqi_vip 阅读(13) 评论(0) 推荐(0)

|NO.Z.00066|——————————|BigDataEnd|——|Hadoop&Flink.V05|——|Flink.v04|Flink SQL|Flink SQL输出表|输出到kafka|

摘要: 一、FlinkSQL输出表:输出到Kafka ### 输出到kafka ~~~ # 往kafka上输出表 DataStreamSource<String> data = env.addSource(new SourceFunction<String> () { @Override public vo 阅读全文

posted @ 2022-04-13 15:27 yanqi_vip 阅读(188) 评论(0) 推荐(0)

|NO.Z.00065|——————————|BigDataEnd|——|Hadoop&Flink.V04|——|Flink.v04|Flink SQL|Flink SQL输出表|输出到文件|

摘要: 一、输出表:输出到文件 ### 输出到文件: tEnv.connect(new FileSystem().path("E:\\data\\out.txt")) .withFormat(new Csv()) .withSchema(new Schema().field("name",DataTypes 阅读全文

posted @ 2022-04-13 15:26 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00064|——————————|BigDataEnd|——|Hadoop&Flink.V03|——|Flink.v03|Flink SQL|Flink SQL查询数据|Table API|SQL|

摘要: 一、FlinkSQL:查询数据 ### Table API ~~~ 官网:https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/tableApi.htmlselect/filter/as Table filter 阅读全文

posted @ 2022-04-13 15:25 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00063|——————————|BigDataEnd|——|Hadoop&Flink.V02|——|Flink.v02|Flink SQL|Flink SQL外部链接|从文件获取数据流|从kafka中获取数据|

摘要: 一、外部链接:Connectors Name VersIon Maven dependency SQL CIIentJAR Filesystem Built-in Built-in Elasticsearch 6 flink-connector-elasticsearch6 Download Ela 阅读全文

posted @ 2022-04-13 15:24 yanqi_vip 阅读(81) 评论(0) 推荐(0)

|NO.Z.00062|——————————|BigDataEnd|——|Hadoop&Flink.V01|——|Flink.v01|Flink SQL|什么是Table API|Flink SQL|入门代码|

摘要: 一、FlinkSQL ### 什么是 Table API 和 Flink SQL ~~~ Flink 本身是批流统一的处理框架,所以 Table API 和 SQL,就是批流统一的上层处理 API。 ~~~ Table API 是一套内嵌在 Java 和 Scala 语言中的查询 API,它允许我们 阅读全文

posted @ 2022-04-13 15:24 yanqi_vip 阅读(65) 评论(0) 推荐(0)

|NO.Z.00061|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:23 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00060|——————————|BigDataEnd|——|Hadoop&Flink.V15|——|Flink.v15|Flink CEP|Flink CEP案例|超时未支付|

摘要: 一、CEP案例:超时未支付 ### CEP案例:超时未支付 ~~~ 案例3:超时未支付 ~~~ 需求:找出下单后10分钟没有支付的订单 二、实现思路: ### 1、数据源: new PayEvent(1L, "create", 1597905234000L), new PayEvent(1L, "p 阅读全文

posted @ 2022-04-13 15:23 yanqi_vip 阅读(46) 评论(0) 推荐(0)

|NO.Z.00058|——————————|BigDataEnd|——|Hadoop&Flink.V13|——|Flink.v13|Flink CEP|Flink CEP案例|恶意登录测试|

摘要: 一、Flink CEP开发流程 ### Flink CEP 开发流程: ~~~ DataSource 中的数据转换为 DataStream;watermark、keyby ~~~ 定义 Pattern,并将 DataStream 和 Pattern 组合转换为 PatternStream; ~~~ 阅读全文

posted @ 2022-04-13 15:22 yanqi_vip 阅读(49) 评论(0) 推荐(0)

|NO.Z.00059|——————————|BigDataEnd|——|Hadoop&Flink.V14|——|Flink.v14|Flink CEP|Flink CEP案例|检测交易|活跃用户|

摘要: 一、CEP案例:检测交易活跃用户 ### 案例说明 ~~~ 案例2:检测交易活跃用户 ~~~ 需求:找出24小时内,至少5次有效交易的用户: 二、思路: ### 数据源: new ActiveUserBean("100XX", 0.0D, 1597905234000L), new ActiveUse 阅读全文

posted @ 2022-04-13 15:22 yanqi_vip 阅读(72) 评论(0) 推荐(0)

|NO.Z.00056|——————————|BigDataEnd|——|Hadoop&Flink.V11|——|Flink.v11|Flink CEP|Flink CEP基础|个体模式|模式序列|模式检测|匹配事件提取|超时事件提取|

摘要: 一、Pattern API ### PatternAPI ~~~ 处理事件的规则,被叫作模式(Pattern)。 ~~~ Flink CEP提供了Pattern API用于对输入流数据进行复杂事件规则定义, ~~~ 用来提取符合规则的事件序列。 二、模式大致分为三类: ### 个体模式(Indivi 阅读全文

posted @ 2022-04-13 15:21 yanqi_vip 阅读(50) 评论(0) 推荐(0)

|NO.Z.00057|——————————|BigDataEnd|——|Hadoop&Flink.V12|——|Flink.v12|Flink CEP|NFA 非确定有限自动机|

摘要: 一、NFA:非确定有限自动机 ### NFA:非确定有限自动机 ~~~ FlinkCEP在运行时会将用户的逻辑转化成这样的一个NFA Graph (nfa对象) ~~~ 所以有限状态机的工作过程,就是从开始状态,根据不同的输入,自动进行状态转换的过程。 ~~~ 上图中的状态机的功能,是检测二进制数是 阅读全文

posted @ 2022-04-13 15:21 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00054|——————————|BigDataEnd|——|Hadoop&Flink.V09|——|Flink.v09|Flink Connector|kafka|Flink kafka Producer|

摘要: 一、Flink kafka Producer ### 代码执行流程 ~~~ nc ~~~ 代码接受nc ~~~ 把接收到的nc的数据,给到kafka flink kafka producer 二、编程代码 ### 编程代码 package com.yanqi.flink; import org.ap 阅读全文

posted @ 2022-04-13 15:20 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00055|——————————|BigDataEnd|——|Hadoop&Flink.V10|——|Flink.v10|Flink CEP|Flink CEP基础|

摘要: 一、Flink CEP ### FlinkCEP ~~~ CEP 即Complex Event Processing - 复杂事件处理, ~~~ Flink CEP 是在 Flink 中实现的复杂时间处理(CEP)库。处理事件的规则,被叫做“模式”(Pattern), ~~~ Flink CEP 提 阅读全文

posted @ 2022-04-13 15:20 yanqi_vip 阅读(41) 评论(0) 推荐(0)

|NO.Z.00052|——————————|BigDataEnd|——|Hadoop&Flink.V07|——|Flink.v07|Flink Connector|kafka|消费策略|

摘要: 一、消费策略 ### 消费策略 ~~~ # setStartFromGroupOffsets()【默认消费策略】 ~~~ 默认读取上次保存的offset信息 ~~~ 如果是应用第一次启动,读取不到上次的offset信息, ~~~ 则会根据这个参数auto.offset.reset的值来进行消费数据 阅读全文

posted @ 2022-04-13 15:19 yanqi_vip 阅读(46) 评论(0) 推荐(0)

|NO.Z.00053|——————————|BigDataEnd|——|Hadoop&Flink.V08|——|Flink.v08|Flink Connector|kafka|Kafka consumer offset自动提交|

摘要: 一、Kafka consumer offset自动提交: ### kafka consumer offset自动提交 ~~~ # kafka consumer offset自动提交的配置需要根据job是否开启checkpoint来区分 ~~~ checkpoint关闭时: ~~~ checkpoin 阅读全文

posted @ 2022-04-13 15:19 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00051|——————————|BigDataEnd|——|Hadoop&Flink.V06|——|Flink.v06|Flink Connector|kafka|源码理解|源码说明.V4|]

摘要: 一、源码提取说明 ### 源码提取说明 ~~~ # 源码提取说明:FlinkKafkaConsumerBase.java ~~~ # 第537~693行 @Override public void open(Configuration configuration) throws Exception 阅读全文

posted @ 2022-04-13 15:18 yanqi_vip 阅读(27) 评论(0) 推荐(0)

|NO.Z.00049|——————————|BigDataEnd|——|Hadoop&Flink.V04|——|Flink.v04|Flink Connector|kafka|源码理解|源码说明.V2|

摘要: 一、源码提取说明 ### 直接启动consumer ~~~ # 源码提取说明:FlinkKafkaConsumerBase.java ~~~ # 第160~161行 /** The startup mode for the consumer (default is {@link StartupMod 阅读全文

posted @ 2022-04-13 15:17 yanqi_vip 阅读(42) 评论(0) 推荐(0)

|NO.Z.00050|——————————|BigDataEnd|——|Hadoop&Flink.V05|——|Flink.v05|Flink Connector|kafka|源码理解|源码说明.V3|

摘要: 一、源码提取说明 ### kafkaFetcher的runFetchLoop方法 ~~~ 此方法为FlinkKafkaConsumer获取数据的主入口,通过一个循环来不断获取kafka broker的数据。 ~~~ # 源码提取说明:KafkaFetcher.java:方法实现 ~~~ # 第124 阅读全文

posted @ 2022-04-13 15:17 yanqi_vip 阅读(41) 评论(0) 推荐(0)

|NO.Z.00046|——————————|BigDataEnd|——|Hadoop&Flink.V01|——|Flink.v01|关于并行度设置|

摘要: 一、关于并行度的设置 ### 关于并行度的设置 ~~~ 一个Flink程序由多个Operator组成(source、transformation和 sink)。 ~~~ 一个Operator由多个并行的Task(线程)来执行, ~~~ 一个Operator的并行Task(线程)数目就被称为该Oper 阅读全文

posted @ 2022-04-13 15:16 yanqi_vip 阅读(39) 评论(0) 推荐(0)

|NO.Z.00047|——————————|BigDataEnd|——|Hadoop&Flink.V02|——|Flink.v02|Flink Connector|kafka|源码理解|源码示例|

摘要: 一、Flink-Connector (Kafka) ### 源码理解 ~~~ # Funtion:UDF 处理数据的逻辑 ~~~ RichFunction: open/close 管理函数的生命周期的方法 ...RunTimeContext函数的运行时上下文 ~~~ SourceFunction: 阅读全文

posted @ 2022-04-13 15:16 yanqi_vip 阅读(47) 评论(0) 推荐(0)

|NO.Z.00048|——————————|BigDataEnd|——|Hadoop&Flink.V03|——|Flink.v03|Flink Connector|kafka|源码理解|源码说明.V1|

摘要: 一、源码提取说明 ### flink-kafka 是如何消费的?以及如何分区分配等 ~~~ open方法源码: ### 指定offset提交模式 ~~~ OffsetCommitMode: ~~~ OffsetCommitMode:表示偏移量如何从外部提交回Kafka brokers/ ~~~ Zo 阅读全文

posted @ 2022-04-13 15:16 yanqi_vip 阅读(40) 评论(0) 推荐(0)

|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&Flink.V11|——|Flink.v11|Flink State|状态原理|原理剖析|状态存储|编程实现|

摘要: 一、编程代码实现 ### 编程代码实现:broadcastdemo.java package com.yanqi.state; import org.apache.flink.api.common.functions.FilterFunction; import org.apache.flink.a 阅读全文

posted @ 2022-04-13 15:15 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00045|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:15 yanqi_vip 阅读(6) 评论(0) 推荐(0)

|NO.Z.00043|——————————|BigDataEnd|——|Hadoop&Flink.V10|——|Flink.v10|Flink State|状态原理|原理剖析|状态存储|state文件格式|

摘要: 一、state 文件格式 ### state文件格式 ~~~ 当我们创建 state 时,数据是如何保存的呢? ~~~ 对于不同的 statebackend,有不同的存储格式。 ~~~ 但是都是使用 flink 序列化器,将键值转化为字节数组保存起来。 ~~~ 这里使用 RocksDBStateBa 阅读全文

posted @ 2022-04-13 15:14 yanqi_vip 阅读(65) 评论(0) 推荐(0)

|NO.Z.00042|——————————|BigDataEnd|——|Hadoop&Flink.V09|——|Flink.v09|Flink State|状态原理|原理剖析|状态存储|开启checkpoint|

摘要: 一、开启 checkpoint ### 开启checkpoint ~~~ 开启 checkpoint 后, ~~~ state backend 管理的 taskmanager 上的状态数据才会被定期备份到jobmanager 或 外部存储, ~~~ 这些状态数据在作业失败恢复时会用到。我们可以通过以 阅读全文

posted @ 2022-04-13 15:13 yanqi_vip 阅读(76) 评论(0) 推荐(0)

|NO.Z.00041|——————————|BigDataEnd|——|Hadoop&Flink.V08|——|Flink.v08|Flink State|状态原理原理剖析|状态存储|配置state backend|

摘要: 一、配置 state backend ### state backend ~~~ 我们知道 flink 提供了三个 state backend,那么如何配置使用某个 state backend 呢? ~~~ 默认的配置在 conf/flink-conf.yaml 文件中 state.backend 阅读全文

posted @ 2022-04-13 15:12 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00040|——————————|BigDataEnd|——|Hadoop&Flink.V07|——|Flink.v07|Flink State|状态原理|原理剖析|状态存储|Keyed State|Operator State|

摘要: 一、Keyed State & Operator State ### state 分类 ~~~ # Operator State (或者non-keyed state ) ~~~ 每个 Operator state 绑定一个并行 Operator 实例。 ~~~ Kafka Connector 是使 阅读全文

posted @ 2022-04-13 15:12 yanqi_vip 阅读(150) 评论(0) 推荐(0)

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&Flink.V05|——|Flink.v05|Flink State|状态原理|原理剖析|广播状态|

摘要: 一、广播状态:什么是广播状态? ### 广播状态说明 ~~~ 所有并行实例,这些实例将它们维持为状态。不广播另一个流的事件, ~~~ 而是将其发送到同一运营商的各个实例,并与广播流的事件一起处理。 ~~~ 新的广播状态非常适合需要加入低吞吐量和高吞吐量流或需要动态更新其处理逻辑的应用程序。 ~~~ 阅读全文

posted @ 2022-04-13 15:11 yanqi_vip 阅读(55) 评论(0) 推荐(0)

|NO.Z.00039|——————————|BigDataEnd|——|Hadoop&Flink.V06|——|Flink.v06|Flink State|状态原理|原理剖析|状态存储|State存储方式|

摘要: 一、状态存储(扩展) ### 状态存储 ~~~ Flink 的一个重要特性就是有状态计算(stateful processing)。 ~~~ Flink 提供了简单易用的 API 来存储和获取状态。 ~~~ 但是,我们还是要理解 API 背后的原理,才能更好的使用。 ### State 存储方式:F 阅读全文

posted @ 2022-04-13 15:11 yanqi_vip 阅读(69) 评论(0) 推荐(0)

|NO.Z.00036|——————————|BigDataEnd|——|Hadoop&Flink.V03|——|Flink.v03|Flink State|状态原理|原理剖析|状态类型|

摘要: 一、Flink的State--状态原理及原理剖析 ### Flink的state&状态原理及原理剖析 ~~~ State:用来保存计算结果或缓存数据。 ~~~ Sum 二、状态类型 ### 状态类型 ~~~ Flink根据是否需要保存中间结果,把计算分为有状态计算和无状态计算 ~~~ 有状态计算:依 阅读全文

posted @ 2022-04-13 15:10 yanqi_vip 阅读(39) 评论(0) 推荐(0)

|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&Flink.V04|——|Flink.v04|Flink State|状态原理|原理剖析|状态描述|

摘要: 一、状态描述:状态描述流程 ### 状态描述说明 ~~~ State 既然是暴露给用户的,那么就需要有一些属性需要指定: ~~~ state 名称、val serializer、state type info。 ~~~ 在对应的statebackend中,会去调用对应的create方法获取到stat 阅读全文

posted @ 2022-04-13 15:10 yanqi_vip 阅读(19) 评论(0) 推荐(0)

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&Flink.V02|——|Flink.v02|Flink Time|使用watermark解决|代码实现|

摘要: 一、watermark案例 ### 实现步骤: ~~~ 获取数据源 ~~~ 转化 ~~~ 声明水印(watermark) ~~~ 分组聚合,调用window的操作 ~~~ 保存处理结果 ### 注意: ~~~ 当使用EventTimeWindow时,所有的Window在EventTime的时间轴上进 阅读全文

posted @ 2022-04-13 15:09 yanqi_vip 阅读(44) 评论(0) 推荐(0)

|NO.Z.00034|——————————|BigDataEnd|——|Hadoop&Flink.V01|——|Flink.v01|Flink Time|Time|数据延迟|参数问题|

摘要: 一、Flink Time ### Time ~~~ 在Flink的流式处理中,会涉及到时间的不同概念,如下图所示: ### Flink Time说明 ~~~ # - EventTime[事件时间] ~~~ 事件发生的时间, ~~~ 例如:点击网站上的某个链接的时间, ~~~ 每一条日志都会记录自己的 阅读全文

posted @ 2022-04-13 15:08 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00033|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 15:07 yanqi_vip 阅读(8) 评论(0) 推荐(0)

|NO.Z.00032|——————————|BigDataEnd|——|Hadoop&Flink.V16|——|Flink.v16|Flink Windows窗口机制|时间窗口Time Window|会话窗口Session Window|

摘要: 一、Flink Window窗口机制:时间窗口TimeWindow:会话窗口(Session Window) ### Flink Window窗口机制:时间窗口TimeWindow:会话窗口(Session Window) ~~~ 时间窗口TimeWindow:会话窗口(Session Window 阅读全文

posted @ 2022-04-13 15:06 yanqi_vip 阅读(53) 评论(0) 推荐(0)

|NO.Z.00029|——————————|BigDataEnd|——|Hadoop&Flink.V13|——|Flink.v13|Flink Windows窗口机制|时间窗口Time Window|滚动时间窗口Tumbling window|基于时间驱动|

摘要: 一、Flink Window窗口机制 ### 时间窗口TumWindow:基于时间驱动 ~~~ # 场景: ~~~ 我们需要统计每一分钟中用户购买的商品的总数,需要将用户的行为事件按每一分钟进行切分, ~~~ 这种切分被成为翻滚时间窗口(Tumbling Time Window) 二、编程代码实现 阅读全文

posted @ 2022-04-13 15:05 yanqi_vip 阅读(67) 评论(0) 推荐(0)

|NO.Z.00030|——————————|BigDataEnd|——|Hadoop&Flink.V14|——|Flink.v14|Flink Windows窗口机制|时间窗口Time Window|滚动时间窗口Tumbling window|基于事件驱动|

摘要: 一、Flink Window窗口机制:时间窗口(TimeWindow) ### 滚动时间窗口(T目标领Window)基于事件驱动 ~~~ # 场景: ~~~ 当我们想要每100个用户的购买行为作为驱动,那么每当窗口中填满100个”相同”元素了, ~~~ 就会对窗口进行计算。 二、编程代码实现 ### 阅读全文

posted @ 2022-04-13 15:05 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00031|——————————|BigDataEnd|——|Hadoop&Flink.V15|——|Flink.v15|Flink Windows窗口机制|时间窗口Time Window|滑动时间窗口Sliding Window|

摘要: 一、Flink window窗口机制:滑动时间窗口(Sliding Window) ### Flink window窗口机制:滑动时间窗口(Sliding Window) ~~~ 滑动时间窗口Sliding Window ### 滑动时间窗口说明 ~~~ 滑动窗口是固定窗口的更广义的一种形式,滑动窗 阅读全文

posted @ 2022-04-13 15:05 yanqi_vip 阅读(71) 评论(0) 推荐(0)

|NO.Z.00027|——————————|BigDataEnd|——|Hadoop&Flink.V11|——|Flink.v11|API详解|Flink Table API|SQL_API|

摘要: 一、Flink Table API和SQL_API ### Flink Table API Flink SQL_API ~~~ Apache Flink提供了两种顶层的关系型API,分别为Table API和SQL, ~~~ Flink通过Table API&SQL实现了批流统一。 ~~~ 其中Ta 阅读全文

posted @ 2022-04-13 15:04 yanqi_vip 阅读(47) 评论(0) 推荐(0)

|NO.Z.00028|——————————|BigDataEnd|——|Hadoop&Flink.V12|——|Flink.v12|Flink Windows窗口机制|时间窗口Time Window|滚动时间窗口Tumbling window|

摘要: 一、Flink Window窗口机制 ### Flink Window 背景 ~~~ Flink认为Batch是Streaming的一个特例,因此Flink底层引擎是一个流式引擎, ~~~ 在上面实现了流处理和批处理。而Window就是从Streaming到Batch的桥梁。 ~~~ 通俗讲,Win 阅读全文

posted @ 2022-04-13 15:04 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00026|——————————|BigDataEnd|——|Hadoop&Flink.V10|——|Flink.v10|API详解Flink DataSet|DataSource|Transformation|Sink|

摘要: 一、Flink DataSet常用API ### Flink DataSet常用API ~~~ DataSet API同DataStream API一样有三个组成部分,各部分作用对应一致,此处不再赘述 二、DataSource ### DataSource ~~~ 对DataSet批处理而言,较为频 阅读全文

posted @ 2022-04-13 15:03 yanqi_vip 阅读(36) 评论(0) 推荐(0)

|NO.Z.00024|——————————|BigDataEnd|——|Hadoop&Flink.V08|——|Flink.v08|API详解|Flink DataStream|Sink|将流数据下沉到redis|

摘要: 一、DataStream常用API:Sink ### Sink ~~~ # Flink针对DataStream提供了大量的已经实现的数据目的地(Sink),具体如下所示 ~~~ writeAsText():讲元素以字符串形式逐行写入,这些字符串通过调用每个元素的toString()方法来获取 ~~~ 阅读全文

posted @ 2022-04-13 15:02 yanqi_vip 阅读(48) 评论(0) 推荐(0)

|NO.Z.00025|——————————|BigDataEnd|——|Hadoop&Flink.V09|——|Flink.v09|API详解|Flink DataStream|Sink|将流数据下沉到mysql|

摘要: 一、导入mysql依赖 ### 在pom.xml文件下写入mysql依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>8.0.21</version> </d 阅读全文

posted @ 2022-04-13 15:02 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00022|——————————|BigDataEnd|——|Hadoop&Flink.V06|——|Flink.v06|API详解|Flink DataStream|Transformation|方法说明|

摘要: 一、Flink DataStream常用API:Transformation ### Transformation ~~~ Flink针对DataStream提供了大量的已经实现的算子 二、Flink DataStream常用API:Transformation算子 ### Map ~~~ Data 阅读全文

posted @ 2022-04-13 15:01 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00023|——————————|BigDataEnd|——|Hadoop&Flink.V07|——|Flink.v07|API详解|Flink DataStream|Transformation编程实现|

摘要: 一、Flink DataStream常用API:Transformation ### 编程实现:ConnectDemo.java package com.yanqi.streamtransformation; import com.yanqi.streamdatasource.SelfSourceP 阅读全文

posted @ 2022-04-13 15:01 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00021|——————————|BigDataEnd|——|Hadoop&Flink.V05|——|Flink.v05|API详解|Flink DataStream|DataSource|自定义数据源.V2|

摘要: 一、DataSource自定义数据源 ### 自定义输入 ~~~ 可以使用StreamExecutionEnvironment.addSource(sourceFunction)将一个流式数据源加到程序中。 ~~~ Flink提供了许多预先实现的源函数,但是也可以编写自己的自定义源, ~~~ 方法是 阅读全文

posted @ 2022-04-13 15:00 yanqi_vip 阅读(94) 评论(0) 推荐(0)

|NO.Z.00020|——————————|BigDataEnd|——|Hadoop&Flink.V04|——|Flink.v04|API详解|Flink DataStream|DataSource|自定义数据源.V1|

摘要: 一、[方法一:没有并行度数据源]:编程代码实现:没有并行度数据源 ### 自定义数据源:没有并行度数据源:为非并行源implements SourceFunction, package com.yanqi.streamdatasource; import org.apache.flink.strea 阅读全文

posted @ 2022-04-13 15:00 yanqi_vip 阅读(32) 评论(0) 推荐(0)

|NO.Z.00017|——————————|BigDataEnd|——|Hadoop&Flink.V01|——|Flink.v01|API详解|Flink DataStream|DataSource|基于文件|

摘要: 一、Flink常用API详解 ### Flink常用API详解 ~~~ DataStream API主要分为3块:DataSource、Transformation、Sink ~~~ DataSource是程序的数据源输入, ~~~ 可以通过StreamExecutionEnvironment.ad 阅读全文

posted @ 2022-04-13 14:59 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00018|——————————|BigDataEnd|——|Hadoop&Flink.V02|——|Flink.v02|API详解|Flink DataStream|DataSource|基于Socket|

摘要: 一、DataSource基于Socket ### DataSource基于Socket读取数据流 ~~~ # socketTextStream从Socket中读取数据,元素可以通过一个分隔符分开 二、编程代码实现 ### 编程代码实现 package com.yanqi.java; import o 阅读全文

posted @ 2022-04-13 14:59 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00019|——————————|BigDataEnd|——|Hadoop&Flink.V03|——|Flink.v03|API详解|Flink DataStream|DataSource|基于集合|

摘要: 一、DataSource基于集合:fromCollection(Collection) ### DataSource基于集合:fromCollection(Collection) ~~~ # 通过Java的Collection集合创建一个数据流,集合中的所有元素必须是相同类型的如果满足以下条件, ~ 阅读全文

posted @ 2022-04-13 14:59 yanqi_vip 阅读(26) 评论(0) 推荐(0)

|NO.Z.00016|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 14:58 yanqi_vip 阅读(14) 评论(0) 推荐(0)

|NO.Z.00015|——————————|^^ 部署 ^^|——|Hadoop&Flink.V06|——|Flink.v06|安装部署|Flink.Yarn模式部署|Per job方式启动|

摘要: 一、方式一:Per job方式 ### 方式一:Per job方式 ~~~ 直接在YARN上提交运行Flink作业(Run a Flink job on YARN) 二、Per job启动流程 三、Per job方式启动实例 ### 启动一个应用实例 ~~~ # 启动一个实例 [root@hadoo 阅读全文

posted @ 2022-04-13 14:57 yanqi_vip 阅读(37) 评论(0) 推荐(0)

|NO.Z.00013|——————————|^^ 测试 ^^|——|Hadoop&Flink.V04|——|Flink.v04|安装部署|StandAlone模式测试|

摘要: 一、在IDEA下导入打jar插件 ### 将WordCountScalaStream打成jar包 ~~~ 注意:集群搭建完毕后,Flink程序就可以打成Jar, ~~~ 在集群环境下类似于Step7中一样提交执行计算任务打jar包插件: ~~~ 该插件可以把包含所有的Flink程序需要的所有的依赖文 阅读全文

posted @ 2022-04-13 14:57 yanqi_vip 阅读(34) 评论(0) 推荐(0)

|NO.Z.00014|——————————|^^ 部署 ^^|——|Hadoop&Flink.V05|——|Flink.v05|安装部署|Flink.Yarn模式部署|yarn session方式启动|

摘要: 一、Flink.Yarn模式部署 ### 启动一个YARN session(Start a long-running Flink cluster on YARN); ~~~ 方式一:yarn session启动 ~~~ 方式二:per job方式启动 二、YARN Session方式:Flink.y 阅读全文

posted @ 2022-04-13 14:57 yanqi_vip 阅读(185) 评论(0) 推荐(0)

|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&Flink.V02|——|Flink.v02|体系结构|运行架构|

摘要: 一、Flink运行架构:Flink程序结构 ### Flink程序结构 ~~~ Flink程序的基本构建块是流和转换(请注意,Flink的DataSet API中使用的DataSet也是内部流)。 ~~~ 从概念上讲,流是(可能永无止境的)数据记录流,而转换是将一个或多个流输入, ~~~ 并产生一个 阅读全文

posted @ 2022-04-13 14:56 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00012|——————————|^^ 部署 ^^|——|Hadoop&Flink.V03|——|Flink.v03|安装部署|StandAlone模式部署|

摘要: 一、Flink安装和部署 ### Flink支持多种安装模式 ~~~ local(本地):单机模式,一般本地开发调试使用 ~~~ StandAlone 独立模式:Flink自带集群,自己管理资源调度,生产环境也会有所应用 ~~~ Yarn模式:计算资源统一由Hadoop YARN管理,生产环境应用较 阅读全文

posted @ 2022-04-13 14:56 yanqi_vip 阅读(140) 评论(0) 推荐(0)

|NO.Z.00010|——————————|BigDataEnd|——|Hadoop&Flink.V01|——|Flink.v01|体系结构|重要角色|

摘要: 一、Flink的重要角色 ### Flink的重要角色 ~~~ # Flink是非常经典的Master/Slave结构实现,JobManager是Master,TaskManager是Slave。 ~~~ # JobManager处理器(Master) ~~~ 协调分布式执行,它们用来调度task, 阅读全文

posted @ 2022-04-13 14:55 yanqi_vip 阅读(33) 评论(0) 推荐(0)

|NO.Z.00009|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 14:55 yanqi_vip 阅读(12) 评论(0) 推荐(0)

|NO.Z.00007|——————————|BigDataEnd|——|Hadoop&Flink.V07|——|Flink.v07|快速应用|单词统计案例|流数据|Scala版|

摘要: 一、单词统计案例(流数据) ### 需求 ~~~ Socket模拟实时发送单词,使用Flink实时接收数据, ~~~ 对指定时间窗口内(如5s)的数据进行聚合统计,每隔1s汇总计算一次, ~~~ 并且把时间窗口内计算结果打印出来。 二、编程代码实现 ### 代码实现 import org.apach 阅读全文

posted @ 2022-04-13 14:54 yanqi_vip 阅读(24) 评论(0) 推荐(0)

|NO.Z.00008|——————————|BigDataEnd|——|Hadoop&Flink.V08|——|Flink.v08|快速应用|单词统计案例|流数据|Java版|

摘要: 一、单词统计案例(流数据) ### 需求 ~~~ Socket模拟实时发送单词,使用Flink实时接收数据, ~~~ 对指定时间窗口内(如5s)的数据进行聚合统计,每隔1s汇总计算一次, ~~~ 并且把时间窗口内计算结果打印出来。 二、编程代码实现 ### 代码实现 package com.yanq 阅读全文

posted @ 2022-04-13 14:54 yanqi_vip 阅读(23) 评论(0) 推荐(0)

|NO.Z.00005|——————————|BigDataEnd|——|Hadoop&Flink.V05|——|Flink.v05|快速应用|单词统计案例|批数据|Java版|

摘要: 一、Flink快速应用 ### Flink快速应用 ~~~ 通过一个单词统计的案例,快速上手应用Flink,进行流处理(Streaming)和批处理(Batch) 二、单词统计案例(批数据)——>Java版 ### 需求 ~~~ 统计一个文件中各个单词出现的次数,把统计结果输出到文件 ~~~ # 步 阅读全文

posted @ 2022-04-13 14:53 yanqi_vip 阅读(38) 评论(0) 推荐(0)

|NO.Z.00006|——————————|BigDataEnd|——|Hadoop&Flink.V06|——|Flink.v06|快速应用|单词统计案例|批数据|Scala版|

摘要: 一、单词统计案例(批数据)——>scala版 ### 需求 ~~~ 统计一个文件中各个单词出现的次数,把统计结果输出到文件 ### 创建scala资源文件夹 ~~~ 创建scala资源文件夹并导入scala依赖环境 二、编程代码实现 ### 编程代码实现 import org.apache.flin 阅读全文

posted @ 2022-04-13 14:53 yanqi_vip 阅读(22) 评论(0) 推荐(0)

|NO.Z.00004|——————————|BigDataEnd|——|Hadoop&Flink.V04|——|Flink.v04|处理模型|流处理批处理|流处理引擎|技术选型|

摘要: 一、Flink 处理模型:流处理与批处理 ### Flink 专注于无限流处理,有限流处理是无限流处理的一种特殊情况 ~~~ # 无限流处理: ~~~ 输入的数据没有尽头,像水流一样源源不断 ~~~ 数据处理从当前或者过去的某一个时间 点开始,持续不停地进行 ~~~ # 有限流处理: ~~~ 从某一 阅读全文

posted @ 2022-04-13 14:52 yanqi_vip 阅读(43) 评论(0) 推荐(0)

|NO.Z.00001|——————————|BigDataEnd|——|Hadoop&Flink.V01|——|Flink.v01|概述特点|什么是Flink|

摘要: 一、Flink概述:什么是Flink ### 什么是 Flink ~~~ Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。 ~~~ Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。 ~~~ Flink起源于2008年柏林理工大 阅读全文

posted @ 2022-04-13 14:51 yanqi_vip 阅读(18) 评论(0) 推荐(0)

|NO.Z.00002|——————————|BigDataEnd|——|Hadoop&Flink.V02|——|Flink.v02|应用场景|

摘要: 一、Flink 应用场景 ### Flink应用场景 ~~~ Flink主要应用于流式数据分析场景 ~~~ 数据无处不在,绝大多数的企业所采取的处理数据的架构都会划分成两类: ~~~ 事务型处理、分析型处理 二、事务型处理 ### 事务性处理 ~~~ OLTP On-Line Transaction 阅读全文

posted @ 2022-04-13 14:51 yanqi_vip 阅读(19) 评论(0) 推荐(0)

|NO.Z.00003|——————————|BigDataEnd|——|Hadoop&Flink.V03|——|Flink.v03|核心组成|生态发展|

摘要: 一、Flink 核心组成及生态发展 ### Flink核心组成 ~~~ # Deploy层: ~~~ 可以启动单个JVM,让Flink以Local模式运行 ~~~ Flink也可以以Standalone 集群模式运行,同时也支持Flink ON YARN, ~~~ Flink应用直接提交到YARN上 阅读全文

posted @ 2022-04-13 14:51 yanqi_vip 阅读(15) 评论(0) 推荐(0)

|NO.Z.00000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 14:50 yanqi_vip 阅读(20) 评论(0) 推荐(0)

|NO.Z.00111|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 14:42 yanqi_vip 阅读(10) 评论(0) 推荐(0)

|NO.Z.10000|——————————|BigDataEnd|——————————————————————————————————————

摘要: NO: Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of 阅读全文

posted @ 2022-04-13 14:42 yanqi_vip 阅读(6) 评论(0) 推荐(0)

|NO.Z.00110|——————————|BigDataEnd|——|Hadoop&Spark.V08|——|Spark.v08|Spark 原理 源码|Spark优化|

摘要: 一、Spark优化 ### 编码优化: ~~~ ① RDD复用 ~~~ ② RDD持久化 ~~~ ③ 巧用 filter ~~~ ④ 选择高性能算子 ~~~ ⑤ 设置合并的并行度 ~~~ ⑥ 广播大变量 ~~~ ⑦ Kryo序列化 ~~~ ⑧ 多使用Spark SQL ~~~ ⑨ 优化数据结构 ~~ 阅读全文

posted @ 2022-04-13 14:41 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00107|——————————|BigDataEnd|——|Hadoop&Spark.V05|——|Spark.v05|Spark 原理 源码|BlockManager|

摘要: 一、BlockManager ### BlockManager ~~~ BlockManager是一个嵌入在 Spark 中的 key-value型分布式存储系统,也是 Master-Slave 结构的, ~~~ RDD-cache、shuffle-output、broadcast 等的实现都是基于 阅读全文

posted @ 2022-04-13 14:40 yanqi_vip 阅读(45) 评论(0) 推荐(0)

|NO.Z.00108|——————————|BigDataEnd|——|Hadoop&Spark.V06|——|Spark.v06|Spark 原理 源码|数据倾斜&基本概念|

摘要: 一、数据倾斜 ### 基本概念 ~~~ 这是我们期望的处理模式: ### 什么是数据倾斜 ~~~ Task之间数据分配的非常不均匀 ~~~ key.hashCode % reduce个数 = 分区号 ### 数据倾斜有哪些现象 ~~~ Executor lost、OOM、Shuffle过程出错、程序 阅读全文

posted @ 2022-04-13 14:40 yanqi_vip 阅读(29) 评论(0) 推荐(0)

|NO.Z.00109|——————————|BigDataEnd|——|Hadoop&Spark.V07|——|Spark.v07|Spark 原理 源码|数据倾斜&数据倾斜处理|

摘要: 一、数据倾斜处理 ### 做好数据预处理: ~~~ 过滤key中的空值 ~~~ 消除数据源带来的数据倾斜(文件采用可切分的压缩方式) ~~~ 数据倾斜产生的主要原因:Shuffle + key分布不均 ### 处理数据倾斜的基本思路: ~~~ 消除shuffle ~~~ 减少shuffle过程中传输 阅读全文

posted @ 2022-04-13 14:40 yanqi_vip 阅读(55) 评论(0) 推荐(0)

|NO.Z.00106|——————————|BigDataEnd|——|Hadoop&Spark.V04|——|Spark.v04|Spark 原理 源码|内存管理&执行内存管理|

摘要: 一、执行内存管理 ### 执行内存管理 ~~~ 执行内存主要用来存储任务在执行 Shuffle 时占用的内存, ~~~ Shuffle 是按照一定规则对 RDD 数据重新分区的过程, ~~~ Shuffle 的 Write 和 Read 两阶段对执行内存的使用: ### Shuffle Write 阅读全文

posted @ 2022-04-13 14:39 yanqi_vip 阅读(26) 评论(0) 推荐(0)

导航