摘要: 新一代开源流数据湖平台Apache Paimon入门实操-下 上一篇对Apache Paimon有了基础了解,本身则主要通过实操方式进一步加深理解,具备沉淀后续投入使用的基础知识;进行数据插入和更新操作,基于批和流式多种查询方式如时间旅行和增量查询,并了解相关系统表的查看,最后MySQL和基于Kafka(通过Canal对MySQL数据库实现变更捕获)的CDC集成完整示例演示收尾。 阅读全文
posted @ 2023-08-07 18:24 itxiaoshen 阅读(1574) 评论(0) 推荐(0) 编辑
摘要: 新一代开源流数据湖平台Apache Paimon入门实操-上 本篇介绍一个强大的流数据湖平台,Flink官方开创,发展速度迅速,先了解其基本定义、适用场景和原理,然后基于yarn方式部署和测试,最后通过Catalog管理、创建表和修改多个示例了解基本使用 阅读全文
posted @ 2023-08-03 18:20 itxiaoshen 阅读(3028) 评论(2) 推荐(1) 编辑
摘要: 国产开源流批统一的数据同步工具Chunjun入门实战 前面我们学习过SeaTunnel这个优秀数据集成平台,今天再来研究一个与之相似开源产品ChunJun,原名为FlinkX其比SeaTunnel开源更早,本篇从了解其概况和特性;然后通过源码编译的方式部署,暂时先通过简单的Local和Standalone两种提交任务方式,通过几个示例一步步演示如何通过Json和SQL两种配置方式实现批流模式,如从MySQL数据源Sink写入HDFS、从Kafka数据源并通过关联ClickHouse表数据转换并最后Sink写入MySQL的使用。 阅读全文
posted @ 2023-07-04 23:35 itxiaoshen 阅读(896) 评论(0) 推荐(1) 编辑
摘要: 一文解开主流开源变更数据捕获技术之Flink CDC的入门使用 相比前面介绍maxwell,实时数据采集中最主流技术非Flink CDC莫属,其直接省去中间的消息中间件如kafka,且支持增量采集也支持全量采集;本篇先介绍CDC的技术和分类,进一步了解其特性和支持丰富数据源,最后通过FLink DataStream和SQL两种编程示例解开入门。 阅读全文
posted @ 2023-06-27 23:40 itxiaoshen 阅读(952) 评论(0) 推荐(0) 编辑
摘要: 云原生时代崛起的编程语言Go远程调用gRPC实战 云原生时代分布式和微服务RPC是一项常见技术,本篇先了解grpc基本定义和特点,搭建gRPC Go开发环境,并了解proto文件基本使用和gRPC go语言代码生成,然后通过Go语言代码示例从使用场景演示一元RPC、服务器流式RPC(文件上传)、客户端流式RPC(文件下载)、双向流式RPC(聊天),从而具备gRPC 开发的入门理解。 阅读全文
posted @ 2023-06-14 23:05 itxiaoshen 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 云原生时代Go最受欢迎Web开源框架Gin原理与实战 在Go的Web开发世界中,Gin以其简单、高性能一举成为使用最广泛的框架;本篇先了解定位和特性,然后在进行常见使用功能如参数获取和绑定、路由组、中间件、静态资源使用、内容渲染、Cookie和Session等多个代码示例演示,最后通过分析源码中的核心流程和数据结构加深对其整体理解。 阅读全文
posted @ 2023-06-08 22:48 itxiaoshen 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 数据治理核心保障数据质量监控开源项目Apache Griffin分享 数据开发和数据应用创造价值离不开数据的质量,数据质量管理是数据治理重要保障途径,Apache Griffin就是为解决数据质量监控而设计,本篇先了解Apache Griffin定义、特性和架构,然后通过官方提供docker-compose一键部署和体验,通过官网提供批处理和流处理演示操作,最后通过其提供UI管理页面实操一个批处理的数据质量监控示例。 阅读全文
posted @ 2023-06-01 23:00 itxiaoshen 阅读(444) 评论(0) 推荐(0) 编辑
摘要: Go开源世界主流成熟ORM框架gorm实践分享 在GoLang世界中有很多优秀的ORM库,今天就介绍主流之一的GORM三方库,了解其核心功能,然后从其支撑数据类型模型和约定开始巩固其基础,接着以安装gorm库及其mysql驱动为基础编写常见CRUD代码示例,进入了解其事务、转换、分片等知识,最后演示其Json序列化示例。 阅读全文
posted @ 2023-05-16 23:32 itxiaoshen 阅读(833) 评论(0) 推荐(1) 编辑
摘要: 盘点数据仓库建设需要知道的那些事 数据管理知识体系之数据仓库为企业数据中台的关键部分,本篇先从数据建设规范入手,接着介绍数仓分层、主题域划分原则,表处理规范和命名规范,最后说明指标定义、指标构成和指标 阅读全文
posted @ 2023-05-13 00:55 itxiaoshen 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 数据治理之关键环节元数据管理开源项目datahub探索 元数据管理在数据治理中非常关键的部分,本篇分享一个现代化元数据管理开源项目datahub,了解其核心功能和概念,进一步理解器其架构和组件,然后从0到1的搭建和使用官方的数据样例演示,最后通过摄取MySQL和ClickHouse的示例打开其探索之门。 阅读全文
posted @ 2023-05-11 23:45 itxiaoshen 阅读(1352) 评论(0) 推荐(0) 编辑