leesf

2021年5月23日

摘要： Apache Hudi集成Spark SQL抢先体验 1. 摘要社区小伙伴一直期待的Hudi整合Spark SQL的PR正在积极Review中并已经快接近尾声，Hudi集成Spark SQL预计会在下个版本正式发布，在集成Spark SQL后，会极大方便用户对Hudi表的DDL/DML操作，下面就阅读全文

posted @ 2021-05-23 21:34 leesf 阅读(2679) 评论(0) 推荐(0)

2021年5月16日

提升50%！Presto如何提升Hudi表查询性能？

摘要：分享一篇关于使用Hudi Clustering来优化Presto查询性能的talk talk主要分为如下几个部分演讲者背景介绍 Apache Hudi介绍数据湖演进和用例说明 Hudi Clustering介绍 Clustering性能和使用未来工作该talk的演讲者为Nishith Aga 阅读全文

posted @ 2021-05-16 18:07 leesf 阅读(868) 评论(0) 推荐(0)

2021年5月9日

在AWS Glue中使用Apache Hudi

摘要： 1. Glue与Hudi简介 AWS Glue AWS Glue是Amazon Web Services(AWS)云平台推出的一款无服务器(Serverless)的大数据分析服务。对于不了解该产品的读者来说，可以用一句话概括其实质：Glue是一个无服务器的全托管的Spark运行环境，只需提供Spar 阅读全文

posted @ 2021-05-09 22:08 leesf 阅读(1084) 评论(0) 推荐(0)

2021年4月24日

致广大数据湖用户的一封信

摘要：随着数据湖概念的流行，涌现了很多关于Apache Hudi的文章，但很多文章在阐述时仅仅将Hudi当做一种表格式，这引发了社区的思考，思考Hudi的愿景到底是什么，并且在Hudi社区发起了讨论重新审视Hudi。我们更倾向于将Hudi当做一个数据湖平台，包含表格式，还包含支持事务的存储层。并重新设计阅读全文

posted @ 2021-04-24 21:49 leesf 阅读(195) 评论(0) 推荐(0)

2021年4月17日

Apache Hudi C位！云计算一哥AWS EMR 2020年度回顾

摘要： 1. 概述成千上万的客户在Amazon EMR上使用Apache Spark，Apache Hive，Apache HBase，Apache Flink，Apache Hudi和Presto运行大规模数据分析应用程序。Amazon EMR自动管理这些框架的配置和扩缩容，并通过优化的运行时提供更高性阅读全文

posted @ 2021-04-17 15:41 leesf 阅读(746) 评论(0) 推荐(0)

2021年4月13日

Apache Hudi 0.8.0版本重磅发布

摘要： 1. 重点特性 1.1 Flink集成自从Hudi 0.7.0版本支持Flink写入后，Hudi社区又进一步完善了Flink和Hudi的集成。包括重新设计性能更好、扩展性更好、基于Flink状态索引的写入Pipeline；支持Flink写入MOR表；Flink批量读取COW和MOR表；流式读取MO 阅读全文

posted @ 2021-04-13 19:01 leesf 阅读(669) 评论(0) 推荐(0)

2021年4月12日

一文彻底掌握Apache Hudi的主键和分区配置

摘要： 1. 介绍 Hudi中的每个记录都由HoodieKey唯一标识，HoodieKey由记录键和记录所属的分区路径组成。基于此设计Hudi可以将更新和删除快速应用于指定记录。Hudi使用分区路径字段对数据集进行分区，并且分区内的记录有唯一的记录键。由于仅在分区内保证唯一性，因此在不同分区之间可能存在具有阅读全文

posted @ 2021-04-12 10:12 leesf 阅读(3342) 评论(0) 推荐(0)

2021年4月11日

干货！Apache Hudi如何智能处理小文件问题

摘要： 1. 引入 Apache Hudi是一个流行的开源的数据湖框架，Hudi提供的一个非常重要的特性是自动管理文件大小，而不用用户干预。大量的小文件将会导致很差的查询分析性能，因为查询引擎执行查询时需要进行太多次文件的打开/读取/关闭。在流式场景中不断摄取数据，如果不进行处理，会产生很多小文件。 2. 阅读全文

posted @ 2021-04-11 09:26 leesf 阅读(2616) 评论(1) 推荐(1)

2021年4月10日

重磅！解锁Apache Flink读写Apache Hudi新姿势

摘要：感谢阿里云 Blink 团队Danny Chan的投稿及完善Flink与Hudi集成工作。 1. 背景 Apache Hudi 是目前最流行的数据湖解决方案之一，Data Lake Analytics 集成了 Hudi 服务高效的数据 MERGE（UPDATE/DELETE）场景；AWS 在 EMR 阅读全文

posted @ 2021-04-10 12:18 leesf 阅读(6421) 评论(0) 推荐(0)

2021年4月8日

Apache Hudi核心概念一网打尽

摘要： 1. 场景 https://hudi.apache.org/docs/use_cases.html 近实时写入减少碎片化工具的使用 CDC 增量导入 RDBMS 数据限制小文件的大小和数量近实时分析相对于秒级存储 (Druid, OpenTSDB) ，节省资源提供分钟级别时效性，支撑更高效阅读全文

posted @ 2021-04-08 13:01 leesf 阅读(2530) 评论(0) 推荐(0)

2021年4月6日

Apache Hudi：CDC的黄金搭档

摘要： 1. 介绍 Apache Hudi是一个开源的数据湖框架，旨在简化增量数据处理和数据管道开发。借助Hudi可以在Amazon S3、Aliyun OSS数据湖中进行记录级别管理插入/更新/删除。AWS EMR集群已支持Hudi组件，并且可以与AWS Glue Data Catalog无缝集成。此特性阅读全文

posted @ 2021-04-06 09:51 leesf 阅读(874) 评论(0) 推荐(0)

2021年3月7日

恭喜！Apache Hudi社区新晋两位Committer

摘要： 1. 介绍经过Apache Hudi项目委员会讨论及投票，向WangXiangHu和LiWei 2人发出Committer邀请，2人均已接受邀请并顺利成为Committer，也使得Apache Hudi Committer成员在不断发展壮大。 Wang XiangHu参与Apache Hudi社区阅读全文

posted @ 2021-03-07 17:04 leesf 阅读(506) 评论(0) 推荐(0)

2021年1月31日

Apache Hudi 0.7.0版本重磅发布

摘要：重点特性 1. Clustering 0.7.0版本中支持了对Hudi表数据进行Clustering（对数据按照数据特征进行聚簇，以便优化文件大小和数据布局），Clustering提供了更灵活地方式增加文件大小，有了Clustering特性，便可更快速地摄取数据，然后聚簇为更大的文件，实验数据表明查阅读全文

posted @ 2021-01-31 22:14 leesf 阅读(1153) 评论(0) 推荐(0)

2021年1月23日

Lakehouse: 统一数据仓库和高级分析的新一代开放平台

摘要： 1. 摘要数仓架构在未来一段时间内会逐渐消亡，会被一种新的Lakehouse架构取代，该架构主要有如下特性基于开放的数据格式，如Parquet；机器学习和数据科学将被作为头等公民支持；提供卓越的性能； Lakehouse可以解决数据仓库面临的几个主要挑战，如数据陈旧，可靠性，总成本，数据格式阅读全文

posted @ 2021-01-23 22:52 leesf 阅读(3664) 评论(0) 推荐(1)

2021年1月1日

数据湖框架选型很纠结？一文了解Apache Hudi核心优势

摘要：英文原文：https://hudi.apache.org/blog/hudi-indexing-mechanisms/ Apache Hudi使用索引来定位更删操作所在的文件组。对于Copy-On-Write表，索引能加快更删的操作，因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge 阅读全文

posted @ 2021-01-01 09:59 leesf 阅读(1419) 评论(1) 推荐(0)

2020年12月6日

通过Apache Hudi和Alluxio建设高性能数据湖

摘要： T3出行的杨华和张永旭描述了他们数据湖架构的发展。该架构使用了众多开源技术，包括Apache Hudi和Alluxio。在本文中，您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半。此外，数据分析人员如何使用Presto、Hudi和Alluxio让查询速度提高了10倍。我们基于数据编阅读全文

posted @ 2020-12-06 21:14 leesf 阅读(1842) 评论(0) 推荐(1)

2020年11月27日

Apache Hudi初学者指南

摘要：在深入研究Hudi机制之前，让我们首先了解Hudi正在解决的问题。客户在使用数据湖时通常会问一个问题：当源记录被更新时，如何更新数据湖？这是一个很难解决的问题，因为一旦你写了CSV或Parquet文件，唯一的选择就是重写它们，没有一种简单的机制可以打开这些文件，找到一条记录并用源代码中的最新值更新阅读全文

posted @ 2020-11-27 23:31 leesf 阅读(2360) 评论(0) 推荐(3)

2020年11月5日

使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS构建数据湖

摘要： 1. 引入数据湖使组织能够在更短的时间内利用多个源的数据，而不同角色用户可以以不同的方式协作和分析数据，从而实现更好、更快的决策。Amazon Simple Storage Service（amazon S3）是针对结构化和非结构化数据的高性能对象存储服务，可以用来作为数据湖底层的存储服务。然而阅读全文

posted @ 2020-11-05 11:45 leesf 阅读(1108) 评论(0) 推荐(0)

2020年10月27日

印度最大在线食品杂货公司Grofers的数据湖建设之路

摘要： 1. 起源作为印度最大的在线杂货公司的数据工程师，我们面临的主要挑战之一是让数据在整个组织中的更易用。但当评估这一目标时，我们意识到数据管道频繁出现错误已经导致业务团队对数据失去信心，结果导致他们永远无法确定哪个数据源是正确的并且可用于分析，因此每个步骤都会咨询数据平台团队，数据平台团队原本应该提阅读全文

posted @ 2020-10-27 09:34 leesf 阅读(865) 评论(5) 推荐(1)

2020年10月21日

Apache Hudi助力nClouds加速数据交付

摘要： 1. 概述在nClouds上，当客户的业务决策取决于对近实时数据的访问时，客户通常会向我们寻求有关数据和分析平台的解决方案。但随着每天创建和收集的数据量都在增加，这使得使用传统技术进行数据分析成为一项艰巨的任务。本文我们将讨论nClouds如何帮助您应对数据延迟，数据质量，系统可靠性和数据隐私合阅读全文

posted @ 2020-10-21 09:29 leesf 阅读(372) 评论(0) 推荐(0)

2020年10月13日

Apache Hudi与Apache Flink集成

摘要：感谢王祥虎@wangxianghu 投稿 Apache Hudi是由Uber开发并开源的数据湖框架，它于2019年1月进入Apache孵化器孵化，次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。 1. 为何要解耦 Hudi自诞生至今一直使用Spark作为其数据处理引擎。阅读全文

posted @ 2020-10-13 09:53 leesf 阅读(4119) 评论(0) 推荐(0)

2020年9月27日

划重点！AWS的湖仓一体使用哪种数据湖格式进行衔接？

摘要：此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift查询Hudi表，现在它终于来了。现在您可以使用Amazon Redshift查询Amazon S3 数据湖中Apache Hudi/Delta Lake表数据。Amazon Redshift Spectrum作为A 阅读全文

posted @ 2020-09-27 20:29 leesf 阅读(767) 评论(0) 推荐(0)

2020年9月22日

Apache Hudi和Presto的前世今生

摘要：一篇由Apache Hudi PMC Bhavani Sudha Saktheeswaran和AWS Presto团队工程师Brandon Scheller分享Apache Hudi和Presto集成的一篇文章。 1. 概述 Apache Hudi 是一个快速迭代的数据湖存储系统，可以帮助企业构建和阅读全文

posted @ 2020-09-22 07:42 leesf 阅读(2276) 评论(0) 推荐(0)

2020年9月14日

恭喜！Apache Hudi社区新晋多位Committer

摘要： 1. 介绍经过Apache Hudi项目委员会讨论及投票，向Udit Mehrotra、Gary Li、Raymond Xu、Pratyaksh Sharma 4人发出Committer邀请，4人均已接受邀请并顺利成为Committer，也使得Apache Hudi Committer成员在不断发阅读全文

posted @ 2020-09-14 18:56 leesf 阅读(1071) 评论(0) 推荐(0)

2020年9月12日

Apache Hudi异步Compaction方式汇总

摘要：本篇文章对执行异步Compaction的不同部署模型一探究竟。 1. Compaction 对于Merge-On-Read表，数据使用列式Parquet文件和行式Avro文件存储，更新被记录到增量文件，然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据阅读全文

posted @ 2020-09-12 21:35 leesf 阅读(2653) 评论(0) 推荐(0)

掌控之中，才会成功；掌控之外，注定失败。

公告