leesf

2022年4月5日

摘要：从 Hudi v0.10.0 开始，我们很高兴地宣布推出适用于 Deltastreamer 的 Debezium 源，它提供从 Postgres 和 MySQL 数据库到数据湖的变更捕获数据 (CDC) 的摄取。有关详细信息请参阅原始 RFC 1. 背景当想要对来自事务数据库（如 Postgres 阅读全文

posted @ 2022-04-05 20:36 leesf 阅读(600) 评论(0) 推荐(0)

2022年3月31日

Robinhood基于Apache Hudi的下一代数据湖实践

摘要： 1. 摘要 Robinhood 的使命是使所有人的金融民主化。 Robinhood 内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础。我们有各种数据源——OLTP 数据库、事件流和各种第 3 方数据源。需要快速、可靠、安全和以隐私为中心的数据湖摄取服务来支持各种报告、关键业务管道和仪表阅读全文

posted @ 2022-03-31 15:54 leesf 阅读(312) 评论(0) 推荐(0)

2022年3月29日

重磅！Vertica集成Apache Hudi指南

摘要： 1. 摘要本文演示了使用外部表集成 Vertica 和 Apache Hudi。在演示中我们使用 Spark 上的 Apache Hudi 将数据摄取到 S3 中，并使用 Vertica 外部表访问这些数据。 2. Apache Hudi介绍 Apache Hudi 是一种变更数据捕获 (CDC 阅读全文

posted @ 2022-03-29 15:50 leesf 阅读(490) 评论(0) 推荐(0)

2022年3月28日

超硬核解析！Apache Hudi灵活的Payload机制

摘要： Apache Hudi 的Payload是一种可扩展的数据处理机制，通过不同的Payload我们可以实现复杂场景的定制化数据写入方式，大大增加了数据处理的灵活性。Hudi Payload在写入和读取Hudi表时对数据进行去重、过滤、合并等操作的工具类，通过使用参数 "hoodie.datasourc 阅读全文

posted @ 2022-03-28 19:40 leesf 阅读(1429) 评论(0) 推荐(0)

2022年3月27日

一文带你了解Lakehouse的并发控制：我们是否过于乐观

摘要： 1. 概述如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止，实际完成了什么？目前有哪些方法？它们在现实世界中的表现如何？这些问题是本博客的重点。有幸从事过各种数据库项目——RDBMS (Oracle)、NoSQL 键值存储 (Voldemort)、流数据库 ( 阅读全文

posted @ 2022-03-27 10:30 leesf 阅读(424) 评论(0) 推荐(1)

2022年3月6日

查询性能提升3倍！Apache Hudi 查询优化了解下？

摘要：从 Hudi 0.10.0版本开始，我们很高兴推出在数据库领域中称为 Z-Order 和 Hilbert 空间填充曲线的高级数据布局优化技术的支持。 1. 背景 Amazon EMR 团队最近发表了一篇很不错的文章展示了对数据进行聚簇是如何提高查询性能的，为了更好地了解发生了什么以及它与空间填充曲线阅读全文

posted @ 2022-03-06 17:19 leesf 阅读(1201) 评论(0) 推荐(1)

2022年1月9日

基于Apache Hudi + Flink的亿级数据入湖实践

摘要：本次分享分为5个部分介绍Apache Hudi的应用与实践实时数据落地需求演进基于Spark+Hudi的实时数据落地应用实践基于Flink自定义实时数据落地实践基于Flink+Hudi的应用实践后续应用规划及展望 1. 实时数据落地需求演进实时平台上线后，主要需求是开发实时报表，即抽取各阅读全文

posted @ 2022-01-09 06:10 leesf 阅读(918) 评论(0) 推荐(0)

2021年12月26日

OnZoom 基于Apache Hudi的流批一体架构实践

摘要： 1. 背景 OnZoom是Zoom新产品，是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸，OnZoom是一个综合性解决方案，为付费的Zoom用户提供创建、主持和盈利的活动，如健身课、音乐会、站立表演或即兴表演，以及Zoom会议平台上的音乐课程。在O 阅读全文

posted @ 2021-12-26 22:40 leesf 阅读(718) 评论(0) 推荐(0)

2021年12月12日

Apache Hudi 与 Hive 集成手册

摘要： 1. Hudi表对应的Hive外部表介绍 Hudi源表对应一份HDFS数据，可以通过Spark，Flink 组件或者Hudi客户端将Hudi表的数据映射为Hive外部表，基于该外部表， Hive可以方便的进行实时视图，读优化视图以及增量视图的查询。 2. Hive对Hudi的集成这里以Hive3. 阅读全文

posted @ 2021-12-12 22:28 leesf 阅读(5412) 评论(1) 推荐(0)

2021年11月14日

Apache Hudi在华米科技的应用-湖仓一体化改造

摘要：徐昱 Apache Hudi Contributor；华米高级大数据开发工程师巨东东华米大数据开发工程师 1. 应用背景及痛点介绍华米科技是一家基于云的健康服务提供商，拥有全球领先的智能可穿戴技术。在华米科技，数据建设主要围绕两类数据：设备数据和APP数据，这些数据存在延迟上传、更新频率高且广阅读全文

posted @ 2021-11-14 21:44 leesf 阅读(696) 评论(0) 推荐(0)

2021年10月24日

基于Apache Hudi 的CDC数据入湖

摘要：作者：李少锋文章目录：一、CDC背景介绍二、CDC数据入湖三、Hudi核心设计四、Hudi未来规划 1. CDC背景介绍首先我们介绍什么是CDC？CDC的全称是Change data Capture，即变更数据捕获，它是数据库领域非常常见的技术，主要用于捕获数据库的一些变更，然后可以把变阅读全文

posted @ 2021-10-24 20:15 leesf 阅读(1621) 评论(0) 推荐(3)

2021年9月26日

一文彻底掌握Apache Hudi异步Clustering部署

摘要： 1. 摘要在之前的一篇博客中，我们介绍了Clustering(聚簇)的表服务来重新组织数据来提供更好的查询性能，而不用降低摄取速度，并且我们已经知道如何部署同步Clustering，本篇博客中，我们将讨论近期社区做的一些改进以及如何通过HoodieClusteringJob和DeltaStream 阅读全文

posted @ 2021-09-26 22:15 leesf 阅读(1889) 评论(0) 推荐(0)

2021年9月12日

Apache Hudi内核之文件标记机制深入解析

摘要： 1. 摘要 Hudi 支持在写入时自动清理未成功提交的数据。Apache Hudi 在写入时引入标记机制来有效跟踪写入存储的数据文件。在本博客中，我们将深入探讨现有直接标记文件机制的设计，并解释了其在云存储（如 AWS S3、Aliyun OSS）上针对非常大批量写入的性能问题。并且演示如何通过阅读全文

posted @ 2021-09-12 21:36 leesf 阅读(940) 评论(0) 推荐(1)

2021年9月5日

Apache Hudi 0.9.0版本重磅发布！更强大的流式数据湖平台

摘要： 1. 重点特性 1.1 Spark SQL支持 0.9.0 添加了对使用 Spark SQL 的 DDL/DML 的支持，朝着使所有角色（非工程师、分析师等）更容易访问和操作 Hudi 迈出了一大步。用户现在可以使用 CREATE TABLE....USING HUDI 和 CREATE TABL 阅读全文

posted @ 2021-09-05 22:31 leesf 阅读(1063) 评论(0) 推荐(0)

2021年8月29日

字节跳动基于Apache Hudi构建EB级数据湖实践

摘要：来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享。接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。在推荐系统中，我们在两个场景下使用数据湖我们使用BigTable作为整个系统近线处理的数据阅读全文

posted @ 2021-08-29 09:26 leesf 阅读(1210) 评论(0) 推荐(0)

2021年8月22日

基于Apache Hudi构建数据湖的典型应用场景介绍

摘要： 1. 传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统大数据方案阅读全文

posted @ 2021-08-22 21:59 leesf 阅读(1791) 评论(0) 推荐(0)

重磅！AWS升级对Apache Hudi的集成

摘要：全球最大云厂商AWS的 Athena 团队又更新了 Athena 与 Apache Hudi 的集成，以支持新功能及最新的 0.8.0 社区版本。早在Apache Hudi还处于孵化阶段时，AWS Athena 便集成了 Hudi 以支持广大客户在S3上变更数据的需求，随着Hudi被全球各大云厂商集阅读全文

posted @ 2021-08-22 21:57 leesf 阅读(228) 评论(0) 推荐(0)

2021年8月1日

恭喜！Apache Hudi社区新晋多位Committer

摘要： 1. 介绍经过Apache Hudi项目委员会讨论及投票决定，来自阿里云的Pengzhiwei和DannyChan成为Apache Hudi Committer，新晋人才也保证了Hudi社区在正确的轨道上不断发展。 Pengzhiwei持续在Apache Hudi社区贡献，开发了诸多特性，如Spa 阅读全文

posted @ 2021-08-01 10:39 leesf 阅读(341) 评论(0) 推荐(0)

2021年7月11日

触宝科技基于Apache Hudi的流批一体架构实践

摘要： 1. 前言当前公司的大数据实时链路如下图，数据源是MySQL数据库，然后通过Binlog Query的方式消费或者直接客户端采集到Kafka，最终通过基于Spark/Flink实现的批流一体计算引擎处理，最后输出到下游对应的存储。 2. 模型特征架构的演进 2.1 第一代架构广告业务发展初期，为阅读全文

posted @ 2021-07-11 22:51 leesf 阅读(1563) 评论(0) 推荐(1)

2021年7月4日

Apache Hudi在Hopworks机器学习的应用

摘要： Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务，以将特征物化到在线特征存储库，不仅仅保证低延迟访问，而且还保证在服务时间可以访问最新鲜的特征值。企业机器学习模型为指导产品用户交互提供了价值价值。通常这些 ML 模型应用阅读全文

posted @ 2021-07-04 11:35 leesf 阅读(492) 评论(0) 推荐(0)

2021年6月20日

通过Z-Order技术加速Hudi大规模数据集分析方案

摘要： 1. 背景多维分析是大数据分析的一个典型场景，这种分析一般带有过滤条件。对于此类查询，尤其是在高基字段的过滤查询，理论上只我们对原始数据做合理的布局，结合相关过滤条件，查询引擎可以过滤掉大量不相关数据，只需读取很少部分需要的数据。例如我们在入库之前对相关字段做排序，这样生成的每个文件相关字段的mi 阅读全文

posted @ 2021-06-20 20:09 leesf 阅读(2596) 评论(0) 推荐(0)

2021年6月17日

一文彻底理解Apache Hudi的多版本清理服务

摘要： Apache Hudi提供了MVCC并发模型，保证写入端和读取端之间快照级别隔离。在本篇博客中我们将介绍如何配置来管理多个文件版本，此外还将讨论用户可使用的清理机制，以了解如何维护所需数量的旧文件版本，以使长时间运行的读取端不会失败。 1. 回收空间以控制存储成本 Hudi 提供不同的表管理服务来管阅读全文

posted @ 2021-06-17 23:44 leesf 阅读(2333) 评论(0) 推荐(0)

2021年6月16日

对话Apache Hudi VP, 洞悉数据湖的过去现在和未来

摘要： Apache Hudi是一个开源数据湖管理平台，用于简化增量数据处理和数据管道开发，该平台可以有效地管理业务需求，例如数据生命周期，并提高数据质量。Hudi的一些常见用例是记录级的插入、更新和删除、简化文件管理和近乎实时的数据访问以及简化的CDC数据管道开发。本期SOFTWARE DAILY我们有阅读全文

posted @ 2021-06-16 23:40 leesf 阅读(608) 评论(0) 推荐(0)

2021年6月15日

KIP-5：Apache Kylin深度集成Hudi

摘要： Q1. What are you trying to do? Articulate your objectives using absolutely no jargon. Q2. What problem is this proposal NOT designed to solve? Q3. How 阅读全文

posted @ 2021-06-15 22:48 leesf 阅读(410) 评论(0) 推荐(0)

2021年5月30日

使用Apache Pulsar + Hudi构建Lakehouse方案了解下？

摘要： 1. 动机 Lakehouse最早由Databricks公司提出，其可作为低成本、直接访问云存储并提供传统DBMS管系统性能和ACID事务、版本、审计、索引、缓存、查询优化的数据管理系统，Lakehouse结合数据湖和数据仓库的优点：包括数据湖的低成本存储和开放数据格式访问，数据仓库强大的管理和优化阅读全文

posted @ 2021-05-30 10:57 leesf 阅读(650) 评论(0) 推荐(0)

掌控之中，才会成功；掌控之外，注定失败。

公告