摘要: 一、业务数据表的增加,如何同步增加 二、做数仓主要是数据复用 三、事实数据和行为数据,放在kafka,维度表放在hbase,dws重难点join 行为数据,display,page,start,这三类行为日志,分发到不同主题去,通过flink侧输出流,用状态来区分新老用户, 业务数据,实现动态分流, 阅读全文
posted @ 2021-09-26 23:00 持枢 阅读(613) 评论(0) 推荐(0)
摘要: 一、CDC概念 测并捕获数据库的变动,这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费 基于查询和binlog两种方式 二、FlinkCDC Flink社区开发了 flink-cdc-connectors 组件,这是一个可以直接从 MySQL、PostgreSQL 等数 阅读全文
posted @ 2021-09-20 21:26 持枢 阅读(2300) 评论(0) 推荐(0)
摘要: 一、task任务调度流程图 二、Graph图的概念 flink执行图的四层概念:streamGraph>JobGraph>ExecutionGraph>物理执行图; streamGraph,根据api编写的代码生成的图,展示程序的拓扑结构,在client生成 jobGraph,streamGraph 阅读全文
posted @ 2021-07-23 22:35 持枢 阅读(292) 评论(0) 推荐(0)
摘要: 一、很多大数据工具是基于jvm,Flink使用自主内存管理,这两者有什么区别 1.jvm存储数据密度低,它包含三个部分,对象头,实例对象,对齐填充;java高级语言,很多事不用人为去做,自动去处理,偏底层自己做,就叫低级语言; 2.FullGC会极大的影响性能,尤其为了处理大数据而开了很大的内存空间 阅读全文
posted @ 2021-07-19 19:16 持枢 阅读(272) 评论(0) 推荐(0)
摘要: 一、jobMaster启动内容 private void startJobMasterServices() throws Exception {//心跳 taskManage与resourceManage的交互 startHeartbeatServices(); // start the slot 阅读全文
posted @ 2021-06-21 16:42 持枢 阅读(400) 评论(0) 推荐(0)
摘要: DefaultDispatcherResourceManagerComponentFactory //resocueManage启动 resourceManager.start(); resourceManagerRetrievalService.start(resourceManagerGatew 阅读全文
posted @ 2021-06-21 15:59 持枢 阅读(168) 评论(0) 推荐(0)
摘要: 一、Dispatcher 的onStart 启动服务 //把自己启动并注册startDispatcherServices();//启动jobMaster,这一步重要 startRecoveredJobs();this.dispatcherBootstrap = this.dispatcherBoot 阅读全文
posted @ 2021-06-18 20:32 持枢 阅读(489) 评论(0) 推荐(0)
摘要: 一、YarnJobClusterEntrypoint 进入YarnJobClusterEntrypoint类 main方法 SignalHandler.register(LOG); JvmShutdownSafeguard.installAsShutdownHook(LOG); Map<String 阅读全文
posted @ 2021-06-18 18:39 持枢 阅读(462) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2021-06-18 17:24 持枢 阅读(52) 评论(0) 推荐(0)
摘要: 一、env.execute() 核心逻辑 executeAsync checkNotNull(streamGraph, "StreamGraph cannot be null."); checkNotNull(configuration.get(DeploymentOptions.TARGET), 阅读全文
posted @ 2021-06-18 17:05 持枢 阅读(348) 评论(0) 推荐(0)