摘要: 个人技术方向发展 阅读全文
posted @ 2023-07-13 15:46 chaplinthink 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 介绍 特性: 高性能,内存利用率高,没有运行时和垃圾回收 可靠 , 丰富的类型系统和所有权模型保证内存和线程安全,编译器可以消除各种错误 生产力, 包管理器、构建工具一流, 多编辑器支持自动补齐和格式化代码 应用场景: 命令行工具,无需解释程序,直接生成目标可执行程序 web应用, 可以直接生成We 阅读全文
posted @ 2022-09-24 17:30 chaplinthink 阅读(654) 评论(2) 推荐(1) 编辑
摘要: 场景 订单数据之类的业务表,因为有状态要更新,比如订单状态,物流状态之类的,需要同步很久之前的数据到Hive. 如何同步时在Hive中进行操作一次更新多个分区内的数据? Hive 操作 设置Hive动态分区 SET hive.exec.dynamic.partition=true; SET hive 阅读全文
posted @ 2022-07-24 15:37 chaplinthink 阅读(450) 评论(0) 推荐(0) 编辑
摘要: 窗口计算 我们经常需要在一个时间窗口维度上对数据进行聚合,窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API,我们可以将数据流切分成一个个窗口,对窗口内的数据进行处理 按照有没有进行keyby分成了两种 不同的处理方式: 首先,我们要决定是否对一个DataStre 阅读全文
posted @ 2022-05-29 18:30 chaplinthink 阅读(86) 评论(0) 推荐(0) 编辑
摘要: Yarn 架构 下图为作业提交到yarn的交互流程: 组件列表 ResourceManager (RM):ResourceManager (RM) 负责处理客户端请求、启动 / 监控 ApplicationMaster、监控 NodeManager、资源的分配与调度,包含 Scheduler 和 A 阅读全文
posted @ 2022-05-28 22:57 chaplinthink 阅读(1284) 评论(0) 推荐(0) 编辑
摘要: 问题 Flink实时统计GMV,如果订单金额下午变了该怎么处理 具体描述 实时统计每天的GMV,但是订单金额是会修改的。 订单存储在mysql,通过binlog解析工具实时同步到kafka.然后从kafka实时统计当日订单总额。 假设订单009 上午10点生成,金额为1000. 生成一条json数据 阅读全文
posted @ 2022-05-23 21:12 chaplinthink 阅读(635) 评论(0) 推荐(0) 编辑
摘要: Catalog 提供了元数据信息,例如数据库、表、分区、视图以及数据库或其他外部系统中存储的函数和信息。 阅读全文
posted @ 2022-05-18 21:32 chaplinthink 阅读(876) 评论(0) 推荐(0) 编辑
摘要: Flink checkpoint Checkpoint是Flink实现容错机制最核心的功能,能够根据配置周期性地基于Stream中各个Operator的状态来生成Snapshot,从而将这些状态数据定期持久化存储下来,从而将这些状态数据定期持久化存储下来,当Flink程序一旦意外崩溃时,重新运行程序 阅读全文
posted @ 2022-05-18 12:59 chaplinthink 阅读(397) 评论(0) 推荐(0) 编辑
摘要: 概念 在Flink架构体系中,有状态计算可以说是Flink非常重要的特性之一 Flink优势: 支持高吞吐、低延迟、高性能 支持事件时间Event_time概念 支持有状态计算 有状态计算是指: 在程序计算过程中,在Flink程序内部存储计算产生的中间结果,并提供给后续Function或算子计算结果 阅读全文
posted @ 2022-05-16 13:43 chaplinthink 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 基础概念 支持三种时间概念: Processing Time 时间递增 Ingestion Time : 摄入时间,数据进入Flink框架的时间,在Source Operator中设置,每个事件拿到当前时间作为时间戳,后续的时间窗口基于该时间 Event Time 支持一定程度的乱序 上一个 che 阅读全文
posted @ 2022-05-14 23:17 chaplinthink 阅读(33) 评论(0) 推荐(0) 编辑