摘要: 比Sqoop功能更加强大开源数据同步工具DataX实战 前面两篇连续介绍两个数据同步组件后,好事应有三,大满贯收场,本篇介绍主流的异构数据源离线同步工具DataX的框架设计和执行流程,将其与大名鼎鼎大数据同步组件Sqoop做对比,部署安装并通过配置基于MySQL和HDFS互为读写的实例场景和关键配置说明。 阅读全文
posted @ 2022-12-23 21:52 itxiaoshen 阅读(366) 评论(1) 推荐(3) 编辑
摘要: 实时采集MySQL数据之轻量工具Maxwell实操 一个用于企业应用支持实时增量采集和全量采集MySQL数据开源框架Maxwell,功能强于Canal,比Flink CDC更易用。本篇先了解其定义和原理,然后通过安装和环境准备,了解其启动的两种方式,最后实操演示几个maxwell在企业中常用的场景示例。 阅读全文
posted @ 2022-12-19 23:16 itxiaoshen 阅读(478) 评论(0) 推荐(2) 编辑
摘要: 可视化编排的数据集成和分发开源框架Nifi轻松入门-上 如何你正在为数据采集做技术选型,今天介绍一款功能极其强大性能也高且采用可视化编排的数据集成框架nifi可以列入选型范畴,是数仓开发的强大工具之一,只要使用后就能体会到其丰富的处理器和扩展性。先了解其特性、核心概念和架构,也支持分布式集群,了解常见处理器分类,最后通过源码安装并使用两个简单的处理器演示一个基础入门示例 阅读全文
posted @ 2022-12-14 00:01 itxiaoshen 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 秒级查询之开源分布式SQL查询引擎Presto实操-上 大数据交互式查询是每个数据分析人员不可或缺的需求,本篇以业界交互式查询的经典之作Presto为研究对象,了解其架构和优缺点及丰富连接器。并通过安装一个协调节点和3个worker节点的分布式集群,使用命令行界面演示hive连接器的查询数据表的示例,最后了解其使用的要点。 阅读全文
posted @ 2022-12-08 22:48 itxiaoshen 阅读(350) 评论(0) 推荐(1) 编辑
摘要: 大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-后续 本篇实战Hudi集成Flink SQl编程示例实现从生成器表写入Hudi表,打包集群验证;然后通过Hudi Flink CDC实现采集MySQL binlog日志写入Kafka再入到hudi表的完整示例,了解Hudi Flink的基础调试只是,最后通过Hudi集成Hive实现Flink Hive Catalog双写同步Hive过程。 阅读全文
posted @ 2022-12-03 00:31 itxiaoshen 阅读(190) 评论(1) 推荐(0) 编辑
摘要: 大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下 本篇演示了Hudi集成Spark的Scala编程示例,并一步步操作说明如何使用DeltaStreamer从Kafka里读取数据写入到Hudi表的HDFS中,接着集成Flink的环境准备,通过基于yarn-session的Flink的sql-client方式提交任务实现插入数据和流式读取数据,了解字节贡献的Bucket索引和Hudi Catalog。 阅读全文
posted @ 2022-11-28 23:30 itxiaoshen 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中 本篇详细描述hoodie数据读写流程,进一步加深对数据湖技术的理解。理论后转战集成Spark的使用,通过spark-shell和spark-sql实现hoodie的插入数据、查询数据、更新数据、删除数据、覆盖数据、时间旅行查询等示例,了解创建表、修改表结构、查询分区、删除分区基本用法,为进一步使用奠定基础。 阅读全文
posted @ 2022-11-23 22:35 itxiaoshen 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-上 湖仓一体时代来临解决大数据企业发展过程Lambada、Kappa架构的诸多痛点,三大数据湖技术Iceberg、Hudi、Delta Lake发展迅速,本篇则以学习功能较为齐全Hudi 数据湖入手,了解其特性和使用场景,一步步操作编译安装Hudi最新版本0.12.1,并初步了解时间轴、文件布局、索引、表类型、查询类型核心概念。 阅读全文
posted @ 2022-11-15 18:56 itxiaoshen 阅读(453) 评论(0) 推荐(1) 编辑
摘要: 成熟企业级开源监控解决方案Zabbix6.2关键功能实战-下 通过上一篇对Zabbix基础和原理有一定理解,本篇则着重从多个实战示例一步步演示如何使用,可直接用于生产环境使用,内容覆盖源码安装、Zabbix Agent2部署、分布式架构Zabbix Proxy的使用、自定义监控、触发器、图形、模板、snmp监控、自动发现、主动注册、JMX监控等完整示例。 阅读全文
posted @ 2022-11-10 22:58 itxiaoshen 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 成熟企业级开源监控解决方案Zabbix6.2关键功能实战-上 前面研究过最主流的容器化监控Prometheus,今天再来聊聊善于监控网络、物理机、虚拟机等的老牌成熟开源监控方案Zabbix(6.2)及其总体架构,并与小米开源Open-falcon做对比分析;企业如何正确选择其版本,最后快速部署Zabbix并实现一个Agent主机的入门示例。 阅读全文
posted @ 2022-11-05 22:10 itxiaoshen 阅读(554) 评论(0) 推荐(2) 编辑