摘要: 这是我参与「第四届青训营 」笔记创作活动的的第9天 流批一体的Scheduler层 Scheduler主要负责将作业的DAG转化为在分布式环境中可以执行的Task 由图上流程来看,DAGScheduler主要是将一些逻辑执行图中的DAG图转化为物理执行的逻辑图并做相关调度。 在1.12之前的Flin 阅读全文
posted @ 2022-08-02 15:14 Luciferpluto 阅读(1) 评论(0) 推荐(0)
摘要: 这是我参与「第四届青训营 」笔记创作活动的的第8天 Flink做到流批一体 流批一体的重要性 举个例子: 在抖音中,实时统计一个短视频的播放量、点赞数,也包括抖音直播间的实时观看人数等; 在抖音中,按天统计创造者的一些数据信息,比如昨天的播放量有多少、评论量多少、广告收入多少; 即如果实时统计则是流 阅读全文
posted @ 2022-08-01 10:42 Luciferpluto 阅读(1) 评论(0) 推荐(0)
摘要: 这是我参与「第四届青训营 」笔记创作活动的的第7天 业务逻辑转换为一个 Streaming DataFlow Graph: 分布式处理: ——添加并发度 假设作业的sink算子的并发配置为1,其余算子并发为2 紧接着会将上面的Streaming DataFlow Graph转化 Parallel D 阅读全文
posted @ 2022-07-31 15:18 Luciferpluto 阅读(1) 评论(0) 推荐(0)
摘要: 这是我参与「第四届青训营 」笔记创作活动的的第6天 Flink分层架构(各个模块的用途) Flink分层架构图 SDK层:Flink的SDK目前主要有三类,SQL/Table、DataStream、Python; 执行引擎层(Runtime层):执行引擎层提供了统一的 DAG,用来描述数据处理的 P 阅读全文
posted @ 2022-07-30 10:55 Luciferpluto 阅读(1) 评论(0) 推荐(0)
摘要: 这是我参与「第四届青训营 」笔记创作活动的的第5天 Apache Flink 诞生背景 什么是大数据 (Big Data):指无法在一定时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。 四个特点: 多样化:大数据的数据源和数据种类是非常多样的 (eg:不仅仅有格式化的数据,还有很多半结 阅读全文
posted @ 2022-07-29 10:14 Luciferpluto 阅读(1) 评论(0) 推荐(0)
摘要: 这是我参与「第四届青训营 」笔记创作活动的的第4天 RBO与CBO的比较 主流 RBO 实现一般都有几百条基于经验归纳得到的优化规则 RBO 实现简单,优化速度快 RBO不保证得到最优的执行计划 CBO使用代价模型和统计信息估算执行计划的代价 CBO使用贪心或者动态规划算法寻找最优执行计划 大数据场 阅读全文
posted @ 2022-07-28 14:11 Luciferpluto 阅读(1) 评论(0) 推荐(0)
摘要: 这是我参与「第四届青训营 」笔记创作活动的的第3天 CBO(Cost-based Optimizer) 概念 使用一个模型估算执行计划的代价,选择代价最小的执行计划 执行计划的代价等于所有算子的执行代价之和 通过RBO得到(所有)可能的等价执行计划 算子代价:CPU,内存,磁盘I/O,网络I/O等代 阅读全文
posted @ 2022-07-27 09:39 Luciferpluto 阅读(2) 评论(0) 推荐(0)
摘要: 这是我参与「第四届青训营 」笔记创作活动的的第2天 常见的查询优化器 查询优化器的分类(两种分类方法) Top-down Optimizer 从目标输出开始,由上往下遍历计划树,找到完整的最优执行计划 例子: Volcano/Cascade,SQLServer Bottom-up Optimizer 阅读全文
posted @ 2022-07-26 14:02 Luciferpluto 阅读(0) 评论(0) 推荐(0)
摘要: 这是我参与「第四届青训营 」笔记创作活动的的第1天 大数据体系中的SQL——One SQL rules big data all 消息队列——解耦存储和计算 重点——分析引擎(SQL) SQL极为重视的原因: SQL简单便捷进行数据处理 SQL有多种设备支持接口 SQL用来处理大数据 SQL的处理流 阅读全文
posted @ 2022-07-25 14:36 Luciferpluto 阅读(0) 评论(0) 推荐(0)
摘要: 持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第20天,点击查看活动详情 收发数据 HTTP请求消息传递协议栈 即从应用程序中调用write将发送数据交给协议栈,协议栈执行发送操作: 协议栈不处理数据,只是统一当作一定长度的二进制字节序列。 协议栈先将数据存放在内部的发送缓冲区 阅读全文
posted @ 2022-06-28 21:19 Luciferpluto 阅读(1) 评论(0) 推荐(0)