会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
panshan-lurenjia
博客园
首页
新随笔
联系
订阅
管理
2023年8月
阿里云DataX-KuduReader插件
摘要: # **1.** **插件介绍** ## 1.1需求背景 项目中需要从另一个Kudu集群定时同步数据,尝试好几个同步方案都不顺手。 Datax上也只有KuduWriter插件,就简单实现了一个KuduReader插件。 插件已同步至[Github](https://github.com/bigban
阅读全文
posted @ 2023-08-28 22:05 畔山陆仁贾
阅读(524)
评论(0)
推荐(0)
2023年6月
Flink的JobManger-Dispatcher执行流程
摘要: # 背景 通过命令行向Flink集群提交任务,都经过哪些环节,中间的调用关系是什么。 这里以Yarn模式为例,通过Flink任务提交至Yarn集群,由Yarn的AM开始执行Flink代码作为入口,尝试进行分析。 Flink里的代码调用关系比较复杂,这里只列了部分关键点,太过于琐碎的代码就没有具体深入
阅读全文
posted @ 2023-06-30 14:51 畔山陆仁贾
阅读(143)
评论(0)
推荐(0)
Flink任务提交至Yarn的流程分析
摘要: # 背景 肯定会有人好奇,我们写的Flink任务代码是如何执行的,本着学习的态度,以flink-yarn的方式,在阅读源码的基础上做一个自己的总结。 # 环境信息 jdk:1.8 scala:2.12 flink:1.13 hadoop:3.0 hadoop相关的环境搭建就不赘述了,参考网上文档即可
阅读全文
posted @ 2023-06-27 15:28 畔山陆仁贾
阅读(324)
评论(0)
推荐(0)
Flink任务提交流程分析
摘要: # 背景说明 在早期的Flink1.9时,为了对Flink任务的进行部署管理,对Flink任务提交的流程进行分析。刚好以前的博客图片失效了,那就用Flink1.13来再读一遍相关源码。 # 任务提交 flink任务提交的起点是flink脚本,以提交至Yarn为例,我们运行wordcount的脚本如下
阅读全文
posted @ 2023-06-21 18:23 畔山陆仁贾
阅读(245)
评论(0)
推荐(0)
Kafka的文件顺序读写
摘要: # 背景说明 Kafka使用起来很方便,而且磁盘写入性能非常好,那么它是如何实现的呢。 在[Kafka的文档](https://kafka.apache.org/documentation/#persistence)说明中,有这样一段: 
评论(0)
推荐(0)
2023年5月
使用Guava的CaseFormat进行数据规范化
摘要: ## 需求背景 在数据规范化的过程中,经常面临多种数据源,字段存在不同的命名风格,那有没有一种方法方便我们对字段名称进行规范化。 ## 用什么做 恰好,Guava提供了这种能力。Guava的CaseFormat类可以做到统一命名风格。话不多说,直接看源码。 在CaseFormat中定义了五个枚举值:
阅读全文
posted @ 2023-05-23 11:50 畔山陆仁贾
阅读(220)
评论(0)
推荐(0)
2023年4月
Pandas的DataFrame使用
摘要: import numpy as np import pandas as pd #DataFrame创建 #1.通过字典创建三行两列,使用默认索引 d = {"code":[1,2,3],"name":['zhangsan','lisi','wangwu']} pd.DataFrame(data=d)
阅读全文
posted @ 2023-04-07 17:17 畔山陆仁贾
阅读(44)
评论(0)
推荐(0)
2023年3月
Mysql索引踩坑指北
摘要: 前言 老王:为什么查询这么慢? 小新:已经给表加索引了。 老王:那为什么索引没生效? 小新:…… Mysql是常用的数据库,在使用过程中为加速查询,增加索引是常规操作,但操作不当会出现索引失效让人尴尬的场景。 今天我们就简单做一个索引相关的总结说明,仅包括InnoDB存储引擎。不想看到最后的同学直接
阅读全文
posted @ 2023-03-12 22:43 畔山陆仁贾
阅读(69)
评论(0)
推荐(0)
Scala-Option使用
摘要: 最近进行代码ShowCode,发现不少null值处理的场景,比如赋初始值或者判断非空。还在使用Java中方式,没有使用更简便的Scala-Option进行包装。 Option可以理解为类型容器,通过安全的方式进行方法调用。 Scala中的Option其实在Java中也有类似实现,比如Guava的Op
阅读全文
posted @ 2023-03-07 18:21 畔山陆仁贾
阅读(108)
评论(0)
推荐(0)
2023年2月
使用Broadcast实现Flink流处理动态更新配置数据
摘要: 需求背景 Flink实时任务的开发过程中,有一个常见的场景需要动态更新一些配置信息,这些信息可能在文件中,也可能是数据库中。对于批处理任务而言这非常简单,可我们在实时任务的执行过程中,该如何实现呢,其实也非常简单。 源码阅读 在Flink中,DataStream也有Broadcast(广播)的能力,
阅读全文
posted @ 2023-02-05 22:09 畔山陆仁贾
阅读(343)
评论(0)
推荐(0)
下一页
公告