文章分类 -  DB-数据-CDC

Great Expectations 实战:命令行操作
摘要:Great Expectations 提供了完整的 命令行工具(CLI) 来执行数据质量验证,无需编写 Python 脚本即可完成从数据源配置到结果输出的全流程。以下结合商超场景(MySQL+ClickHouse),详细说明如何通过命令行获取数据质量结果: 1. 核心命令行操作流程 1.1. 初始化 阅读全文
posted @ 2025-08-13 15:29 xibuhaohao 阅读(43) 评论(0) 推荐(0)
Great Expectations 实战:商超线上线下数据(MySQL+ClickHouse)质量验证全流程 (二)- 实时检测
摘要:Great Expectations 本身是基于批处理的数据质量工具,但可通过与 实时流处理框架(如 Apache Kafka + Flink) 集成,实现近实时数据质量验证。以下是具体实现案例,模拟商超线上订单实时流的质量监控: 1. 整体架构 实时数据源(模拟订单系统)→ Kafka(消息队列) 阅读全文
posted @ 2025-08-13 15:07 xibuhaohao 阅读(73) 评论(0) 推荐(0)
Great Expectations 实战:商超线上线下数据(MySQL+ClickHouse)质量验证全流程(一)- 离线检测
摘要:以下是结合 MySQL(OLTP) 和 ClickHouse(OLAP) 的 Great Expectations 完整落地流程,针对商超线上 / 线下场景设计,包含环境搭建、数据生成、质量验证及结果分析: 1. 环境准备与安装 1.1. 环境准备 1.2. 安装依赖工具 # 创建虚拟环境 pyth 阅读全文
posted @ 2025-08-13 14:50 xibuhaohao 阅读(21) 评论(0) 推荐(0)
数据迁移与集成工具全维度对比:核心特性、适用场景及选型指南(二)github 星级项目
摘要:以下是 GitHub 高星开源 ETL 工具的综合对比,补充 操作界面支持情况 及核心特性,帮助快速选型: 1. 高星 ETL 工具对比表(含界面支持) 工具核心定位GitHub Star开源性操作界面类型核心特性界面优缺点 Apache Airflow 工作流编排与调度引擎 ⭐️38k+ ✅ 开源 阅读全文
posted @ 2025-08-13 11:41 xibuhaohao 阅读(31) 评论(0) 推荐(0)
数据迁移与集成工具全维度对比:核心特性、适用场景及选型指南(一)
摘要:以下是 DBConvert、DataX、FlinkCDC、DBeaver、SeaTunnel、Sqoop、Debezium、Logstash、Talend、MDBTools、Canal 、Kettle等工具的综合对比分析,涵盖核心特性、适用场景、优缺点及技术选型建议: 1. 工具对比总览 工具核心定 阅读全文
posted @ 2025-08-13 11:25 xibuhaohao 阅读(101) 评论(0) 推荐(0)
seatunnel-安装与简单使用
摘要:一、下载seatunnel 1、安装java依赖 检测是否已经安装java: rpm -qa|grep java 安装java: yum -y install java-11-openjdk 设置java变量: [root@zb-yunweitest-mysql-204-200 jvm]# cd / 阅读全文
posted @ 2025-02-17 19:15 xibuhaohao 阅读(176) 评论(0) 推荐(0)