博客园 - leesf
uuid:24b78886-0ed1-41c2-8670-e3f31dcf42c4;id=133453
2024-03-24T01:34:15Z
leesf
https://www.cnblogs.com/leesf456/
feed.cnblogs.com
https://www.cnblogs.com/leesf456/p/18092100
Apache Hudi从零到一:存储格式初探 - leesf
在花了大约 4 年时间致力于 Apache Hudi(其中包括 3 年Committer身份)之后,我决定开始这个博客系列,旨在以有组织且适合初学者的方式展示 Hudi 的设计和用法。 我的目标是确保对分布式数据系统有一定了解的人能够轻松地理解该系列。 该系列将包含 10 篇文章,每篇文章都会深入探
2024-03-24T01:34:00Z
2024-03-24T01:34:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】在花了大约 4 年时间致力于 Apache Hudi(其中包括 3 年Committer身份)之后,我决定开始这个博客系列,旨在以有组织且适合初学者的方式展示 Hudi 的设计和用法。 我的目标是确保对分布式数据系统有一定了解的人能够轻松地理解该系列。 该系列将包含 10 篇文章,每篇文章都会深入探 <a href="https://www.cnblogs.com/leesf456/p/18092100" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/18052466
Apache Hudi 在 vivo 湖仓一体的落地实践 - leesf
作者:vivo 互联网大数据团队 - Xu Yu 在增效降本的大背景下,vivo大数据基础团队引入Hudi组件为公司业务部门湖仓加速的场景进行赋能。主要应用在流批同源、实时链路优化及宽表拼接等业务场景。 Hudi 基础能力及相关概念介绍 流批同源能力 与Hive不同,Hudi数据在Spark/Fli
2024-03-04T11:21:00Z
2024-03-04T11:21:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】作者:vivo 互联网大数据团队 - Xu Yu 在增效降本的大背景下,vivo大数据基础团队引入Hudi组件为公司业务部门湖仓加速的场景进行赋能。主要应用在流批同源、实时链路优化及宽表拼接等业务场景。 Hudi 基础能力及相关概念介绍 流批同源能力 与Hive不同,Hudi数据在Spark/Fli <a href="https://www.cnblogs.com/leesf456/p/18052466" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/18031947
记录级别索引:Hudi 针对大型数据集的超快索引 - leesf
介绍 索引是一个关键组件,有助于 Hudi 写入端快速更新和删除,并且它在提高查询执行方面也发挥着关键作用。 Hudi提供了多种索引类型,包括全局变化的Bloom索引和Simple索引、利用HBase服务的HBase索引、基于哈希的Bucket索引以及通过元数据表实现的多模态索引。 索引的选择取决于
2024-02-25T01:30:00Z
2024-02-25T01:30:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】介绍 索引是一个关键组件,有助于 Hudi 写入端快速更新和删除,并且它在提高查询执行方面也发挥着关键作用。 Hudi提供了多种索引类型,包括全局变化的Bloom索引和Simple索引、利用HBase服务的HBase索引、基于哈希的Bucket索引以及通过元数据表实现的多模态索引。 索引的选择取决于 <a href="https://www.cnblogs.com/leesf456/p/18031947" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17963504
Apache Hudi在信息服务行业构建流批一体的实践 - leesf
个人介绍 李昂 高级数据研发工程师 Apache Doris & Hudi Contributor 业务背景 部门成立早期, 为了应对业务的快速增长, 数仓架构采用了最直接的Lambda架构 对数据新鲜度要求不高的数据, 采用离线数仓做维度建模, 采用每小时调度binlog+每日主键归并的方式实现T
2024-01-14T03:44:00Z
2024-01-14T03:44:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】个人介绍 李昂 高级数据研发工程师 Apache Doris & Hudi Contributor 业务背景 部门成立早期, 为了应对业务的快速增长, 数仓架构采用了最直接的Lambda架构 对数据新鲜度要求不高的数据, 采用离线数仓做维度建模, 采用每小时调度binlog+每日主键归并的方式实现T <a href="https://www.cnblogs.com/leesf456/p/17963504" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17909715.html
阿里云AnalyticDB基于Flink CDC+Hudi实现多表全增量入湖实践 - leesf
湖仓一体(LakeHouse)是大数据领域的重要发展方向,提供了流批一体和湖仓结合的新场景。阿里云AnalyticDB for MySQL基于 Apache Hudi 构建了新一代的湖仓平台,提供日志、CDC等多种数据源一键入湖,在离线计算引擎融合分析等能力。本文将主要介绍AnalyticDB fo
2023-12-17T12:20:00Z
2023-12-17T12:20:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】湖仓一体(LakeHouse)是大数据领域的重要发展方向,提供了流批一体和湖仓结合的新场景。阿里云AnalyticDB for MySQL基于 Apache Hudi 构建了新一代的湖仓平台,提供日志、CDC等多种数据源一键入湖,在离线计算引擎融合分析等能力。本文将主要介绍AnalyticDB fo <a href="https://www.cnblogs.com/leesf456/p/17909715.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17810889.html
Apache Hudi Timeline:支持 ACID 事务的基础 - leesf
Apache Hudi 维护在给定表上执行的所有操作的Timeline(时间线),以支持以符合 ACID 的方式高效检索读取查询的数据。 在写入和表服务期间也会不断查阅时间线,这是表正常运行的关键。 如果任何时间线操作出现混乱(由于多写入未配置锁提供程序等),则可能导致数据一致性问题(数据丢失或数据
2023-11-05T10:48:00Z
2023-11-05T10:48:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】Apache Hudi 维护在给定表上执行的所有操作的Timeline(时间线),以支持以符合 ACID 的方式高效检索读取查询的数据。 在写入和表服务期间也会不断查阅时间线,这是表正常运行的关键。 如果任何时间线操作出现混乱(由于多写入未配置锁提供程序等),则可能导致数据一致性问题(数据丢失或数据 <a href="https://www.cnblogs.com/leesf456/p/17810889.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17745835.html
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践 - leesf
文章贡献者 Authors 技术指导: 泰康人寿 数据架构资深专家工程师 王可 文章作者: 泰康人寿 数据研发工程师 田昕峣 摘要 Abstract 本文详细介绍了泰康人寿基于 Apache Hudi 构建湖仓一体分布式数据处理平台的技术选型方法、整体架构设计与实施、以及针对大健康领域的领域特征和公
2023-10-07T03:08:00Z
2023-10-07T03:08:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】文章贡献者 Authors 技术指导: 泰康人寿 数据架构资深专家工程师 王可 文章作者: 泰康人寿 数据研发工程师 田昕峣 摘要 Abstract 本文详细介绍了泰康人寿基于 Apache Hudi 构建湖仓一体分布式数据处理平台的技术选型方法、整体架构设计与实施、以及针对大健康领域的领域特征和公 <a href="https://www.cnblogs.com/leesf456/p/17745835.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17675610.html
CDC一键入湖:当 Apache Hudi DeltaStreamer 遇见 Serverless Spark - leesf
Apache Hudi的DeltaStreamer是一种以近实时方式摄取数据并写入Hudi表的工具类,它简化了流式数据入湖并存储为Hudi表的操作,自 `0.10.0` 版开始,Hudi又在DeltaStreamer的基础上增加了基于Debezium的CDC数据处理能力,这使得其可以直接将Debez
2023-09-03T13:17:00Z
2023-09-03T13:17:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】Apache Hudi的DeltaStreamer是一种以近实时方式摄取数据并写入Hudi表的工具类,它简化了流式数据入湖并存储为Hudi表的操作,自 `0.10.0` 版开始,Hudi又在DeltaStreamer的基础上增加了基于Debezium的CDC数据处理能力,这使得其可以直接将Debez <a href="https://www.cnblogs.com/leesf456/p/17675610.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17626093.html
图加速数据湖分析-GeaFlow和Apache Hudi集成 - leesf
# 表模型现状与问题 关系模型自1970年由埃德加·科德提出来以后被广泛应用于数据库和数仓等数据处理系统的数据建模。关系模型以表作为基本的数据结构来定义数据模型,表为二维数据结构,本身缺乏关系的表达能力,关系的运算通过Join关联运算来处理。表模型简单且易于理解,在关系模型中被广泛使用。 随着互联网
2023-08-13T00:25:00Z
2023-08-13T00:25:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】# 表模型现状与问题 关系模型自1970年由埃德加·科德提出来以后被广泛应用于数据库和数仓等数据处理系统的数据建模。关系模型以表作为基本的数据结构来定义数据模型,表为二维数据结构,本身缺乏关系的表达能力,关系的运算通过Join关联运算来处理。表模型简单且易于理解,在关系模型中被广泛使用。 随着互联网 <a href="https://www.cnblogs.com/leesf456/p/17626093.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17557534.html
加速LakeHouse ACID Upsert的新写时复制方案 - leesf
![](https://cdn.nlark.com/yuque/0/2023/png/26993331/1688806810010-c2b1a6e2-dd6c-43c7-8030-0c48aad6cacf.png#averageHue=%23faf9f8&clientId=uf2dc49f9-f36
2023-07-16T02:18:00Z
2023-07-16T02:18:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】![](https://cdn.nlark.com/yuque/0/2023/png/26993331/1688806810010-c2b1a6e2-dd6c-43c7-8030-0c48aad6cacf.png#averageHue=%23faf9f8&clientId=uf2dc49f9-f36 <a href="https://www.cnblogs.com/leesf456/p/17557534.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17538883.html
如何不加锁地将数据并发写入Apache Hudi? - leesf
最近一位 Hudi 用户询问他们是否可以在不需要任何锁的情况下同时从多个写入端写入单个 Hudi 表。 他们场景是一个不可变的工作负载。 一般来说对于任何多写入端功能,Hudi 建议启用锁定配置。 但这是一个有趣的问题,我们进行探索并找到了解决方案,因此与更广泛的社区分享。 # 需要并发写入的锁提供
2023-07-09T08:14:00Z
2023-07-09T08:14:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】最近一位 Hudi 用户询问他们是否可以在不需要任何锁的情况下同时从多个写入端写入单个 Hudi 表。 他们场景是一个不可变的工作负载。 一般来说对于任何多写入端功能,Hudi 建议启用锁定配置。 但这是一个有趣的问题,我们进行探索并找到了解决方案,因此与更广泛的社区分享。 # 需要并发写入的锁提供 <a href="https://www.cnblogs.com/leesf456/p/17538883.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17519408.html
Apache Hudi 元数据字段揭秘 - leesf
# 介绍 Apache Hudi 最初由Uber于 2016 年开发,旨在实现一个交易型数据湖,该数据湖可以快速可靠地支持更新,以支持公司拼车平台的大规模增长。 Apache Hudi 现在被业内许多人广泛用于构建一些非常大规模的数据湖。 Apache Hudi 为快速变化的环境中管理数据提供了一个
2023-07-01T07:54:00Z
2023-07-01T07:54:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】# 介绍 Apache Hudi 最初由Uber于 2016 年开发,旨在实现一个交易型数据湖,该数据湖可以快速可靠地支持更新,以支持公司拼车平台的大规模增长。 Apache Hudi 现在被业内许多人广泛用于构建一些非常大规模的数据湖。 Apache Hudi 为快速变化的环境中管理数据提供了一个 <a href="https://www.cnblogs.com/leesf456/p/17519408.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17455284.html
Apache Hudi 1.x 版本重磅功能展望与讨论 - leesf
Apache Hudi 社区正在对Apache Hudi 1.x版本功能进行讨论,欢迎感兴趣同学参与讨论,PR链接:[https://github.com/apache/hudi/pull/8679/files](https://github.com/apache/hudi/pull/8679/fi
2023-06-04T02:19:00Z
2023-06-04T02:19:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】Apache Hudi 社区正在对Apache Hudi 1.x版本功能进行讨论,欢迎感兴趣同学参与讨论,PR链接:[https://github.com/apache/hudi/pull/8679/files](https://github.com/apache/hudi/pull/8679/fi <a href="https://www.cnblogs.com/leesf456/p/17455284.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17418187.html
提升 Apache Hudi Upsert 性能的三个建议 - leesf
Apache Hudi 社区一直在快速发展,各公司正在寻找方法来利用其强大的功能来有效地摄取和管理大规模数据集。 每周社区都会收到一些常见问题,最常见的问题与 Hudi 如何执行更新插入有关,以确保以低延迟访问最新数据。 # 选择合适的存储表类型 快速更新插入的主要考虑因素之一是选择正确的存储表类型
2023-05-21T00:32:00Z
2023-05-21T00:32:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】Apache Hudi 社区一直在快速发展,各公司正在寻找方法来利用其强大的功能来有效地摄取和管理大规模数据集。 每周社区都会收到一些常见问题,最常见的问题与 Hudi 如何执行更新插入有关,以确保以低延迟访问最新数据。 # 选择合适的存储表类型 快速更新插入的主要考虑因素之一是选择正确的存储表类型 <a href="https://www.cnblogs.com/leesf456/p/17418187.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17399622.html
日增数据超10PB!揭秘沃尔玛Lakehouse架构选型之路 - leesf
沃尔玛系统产生了世界上最大和最多样化的数据集之一,每天数据增长超 10 PB。 来自许多不同的来源及其支持的后端系统,一系列大量的业务事件流被发送到主要由 Apache Kafka 支持的消息传递层。 沃尔玛团队强烈希望扩展近乎实时的决策制定,如事件驱动架构的显着增加、来自生产数据库的变更数据捕获
2023-05-14T09:02:00Z
2023-05-14T09:02:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】沃尔玛系统产生了世界上最大和最多样化的数据集之一,每天数据增长超 10 PB。 来自许多不同的来源及其支持的后端系统,一系列大量的业务事件流被发送到主要由 Apache Kafka 支持的消息传递层。 沃尔玛团队强烈希望扩展近乎实时的决策制定,如事件驱动架构的显着增加、来自生产数据库的变更数据捕获 <a href="https://www.cnblogs.com/leesf456/p/17399622.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17280658.html
Onetable:统一的表格式元数据表示 - leesf
概括 Onehouse 客户现在可以将他们的 Hudi 表查询为 Apache Iceberg 和/或 Delta Lake 表,享受从云上查询引擎到顶级开源项目的原生性能优化。 在数据平台需求层次结构的基础上,存在摄取、存储、管理和转换数据的基本需求。 Onehouse 提供这种基础数据基础架构作
2023-04-02T08:01:00Z
2023-04-02T08:01:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】概括 Onehouse 客户现在可以将他们的 Hudi 表查询为 Apache Iceberg 和/或 Delta Lake 表,享受从云上查询引擎到顶级开源项目的原生性能优化。 在数据平台需求层次结构的基础上,存在摄取、存储、管理和转换数据的基本需求。 Onehouse 提供这种基础数据基础架构作 <a href="https://www.cnblogs.com/leesf456/p/17280658.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17181954.html
Apache Hudi 0.13.0版本重磅发布! - leesf
Apache Hudi 0.13.0 版本引入了许多新功能,包括 Metaserver、变更数据捕获、新的 Record Merge API、Deltastreamer支持新数据源等。 虽然此版本不需要表版本升级,但希望用户在使用 0.13.0 版本之前按照下面的迁移指南采取相关重大变更和行为变更的
2023-03-05T14:20:00Z
2023-03-05T14:20:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】Apache Hudi 0.13.0 版本引入了许多新功能,包括 Metaserver、变更数据捕获、新的 Record Merge API、Deltastreamer支持新数据源等。 虽然此版本不需要表版本升级,但希望用户在使用 0.13.0 版本之前按照下面的迁移指南采取相关重大变更和行为变更的 <a href="https://www.cnblogs.com/leesf456/p/17181954.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17156306.html
Apache Hudi 负载类Payload使用案例剖析 - leesf
在 Hudi 中可以根据业务场景为 Hudi 表配置负载类Payload,它用于在更新期间合并同一记录的两个版本。本文将深入了解有效负载类的用途以及可以使用的所有不同方式。 配置:hoodie.datasource.write.payload.class 注意:对于新的记录合并API ,这些可能会发
2023-02-26T03:04:00Z
2023-02-26T03:04:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】在 Hudi 中可以根据业务场景为 Hudi 表配置负载类Payload,它用于在更新期间合并同一记录的两个版本。本文将深入了解有效负载类的用途以及可以使用的所有不同方式。 配置:hoodie.datasource.write.payload.class 注意:对于新的记录合并API ,这些可能会发 <a href="https://www.cnblogs.com/leesf456/p/17156306.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17134219.html
Apache Hudi 流转批 场景实践 - leesf
背景 在某些业务场景下,我们需要一个标志来衡量hudi数据写入的进度,比如:Flink 实时向 Hudi 表写入数据,然后使用这个 Hudi 表来支持批量计算并通过一个 flag 来评估它的分区数据是否完整从而进一步写入分区数据进行分区级别的ETL,这也就是我们通常说的流转批。 EventTime计
2023-02-19T01:20:00Z
2023-02-19T01:20:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】背景 在某些业务场景下,我们需要一个标志来衡量hudi数据写入的进度,比如:Flink 实时向 Hudi 表写入数据,然后使用这个 Hudi 表来支持批量计算并通过一个 flag 来评估它的分区数据是否完整从而进一步写入分区数据进行分区级别的ETL,这也就是我们通常说的流转批。 EventTime计 <a href="https://www.cnblogs.com/leesf456/p/17134219.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/leesf456/p/17113370.html
基于Apache Hudi 构建Serverless实时分析平台 - leesf
NerdWallet 的使命是为生活中的所有财务决策提供清晰的信息。 这涵盖了一系列不同的主题:从选择合适的信用卡到管理您的支出,到找到最好的个人贷款,再到为您的抵押贷款再融资。 因此,NerdWallet 提供了跨越众多领域的强大功能,例如信用监控和警报、用于跟踪净值和现金流的仪表板、机器学习 (
2023-02-12T02:29:00Z
2023-02-12T02:29:00Z
leesf
https://www.cnblogs.com/leesf456/
【摘要】NerdWallet 的使命是为生活中的所有财务决策提供清晰的信息。 这涵盖了一系列不同的主题:从选择合适的信用卡到管理您的支出,到找到最好的个人贷款,再到为您的抵押贷款再融资。 因此,NerdWallet 提供了跨越众多领域的强大功能,例如信用监控和警报、用于跟踪净值和现金流的仪表板、机器学习 ( <a href="https://www.cnblogs.com/leesf456/p/17113370.html" target="_blank">阅读全文</a>