摘要: 一、前言 在解决昨天的问题时,又引出了很多新的问题,如为什么要进行编码,这些编码的关系如何,如ASCII,IOS-8859-1,GB2312,GBK,Unicode之间的关系,笔者想要彻底理解字符编码背后的故事,遂进行了探索,具体笔记如下。如园友能读完本篇文章,我相信会解开很多疑惑。 二、字符编码 阅读全文
posted @ 2016-03-25 10:46 leesf 阅读(34093) 评论(12) 推荐(53) 编辑
摘要: 一、前言 相信大家平时肯定会收到朋友发来的链接,打开一看,哦,需要投票。投完票后弹出一个页面(恭喜您,您已经投票成功),再次点击的时候发现,啊哈,您的IP(***.***.***.***)已经投过票了,不能重复投票。这时候,我们可能会想,能不能突破ip地址的限制进行刷票呢?有了这样的想法,那就去做吧 阅读全文
posted @ 2016-01-30 08:49 leesf 阅读(14964) 评论(28) 推荐(28) 编辑
摘要: Apache Hudi 社区一直在快速发展,各公司正在寻找方法来利用其强大的功能来有效地摄取和管理大规模数据集。 每周社区都会收到一些常见问题,最常见的问题与 Hudi 如何执行更新插入有关,以确保以低延迟访问最新数据。 # 选择合适的存储表类型 快速更新插入的主要考虑因素之一是选择正确的存储表类型 阅读全文
posted @ 2023-05-21 08:32 leesf 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 沃尔玛系统产生了世界上最大和最多样化的数据集之一,每天数据增长超 10 PB。 来自许多不同的来源及其支持的后端系统,一系列大量的业务事件流被发送到主要由 Apache Kafka 支持的消息传递层。 沃尔玛团队强烈希望扩展近乎实时的决策制定,如事件驱动架构的显着增加、来自生产数据库的变更数据捕获 阅读全文
posted @ 2023-05-14 17:02 leesf 阅读(206) 评论(0) 推荐(1) 编辑
摘要: 概括 Onehouse 客户现在可以将他们的 Hudi 表查询为 Apache Iceberg 和/或 Delta Lake 表,享受从云上查询引擎到顶级开源项目的原生性能优化。 在数据平台需求层次结构的基础上,存在摄取、存储、管理和转换数据的基本需求。 Onehouse 提供这种基础数据基础架构作 阅读全文
posted @ 2023-04-02 16:01 leesf 阅读(161) 评论(0) 推荐(0) 编辑
摘要: Apache Hudi 0.13.0 版本引入了许多新功能,包括 Metaserver、变更数据捕获、新的 Record Merge API、Deltastreamer支持新数据源等。 虽然此版本不需要表版本升级,但希望用户在使用 0.13.0 版本之前按照下面的迁移指南采取相关重大变更和行为变更的 阅读全文
posted @ 2023-03-05 22:20 leesf 阅读(421) 评论(0) 推荐(0) 编辑
摘要: 在 Hudi 中可以根据业务场景为 Hudi 表配置负载类Payload,它用于在更新期间合并同一记录的两个版本。本文将深入了解有效负载类的用途以及可以使用的所有不同方式。 配置:hoodie.datasource.write.payload.class 注意:对于新的记录合并API ,这些可能会发 阅读全文
posted @ 2023-02-26 11:04 leesf 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 背景 在某些业务场景下,我们需要一个标志来衡量hudi数据写入的进度,比如:Flink 实时向 Hudi 表写入数据,然后使用这个 Hudi 表来支持批量计算并通过一个 flag 来评估它的分区数据是否完整从而进一步写入分区数据进行分区级别的ETL,这也就是我们通常说的流转批。 EventTime计 阅读全文
posted @ 2023-02-19 09:20 leesf 阅读(215) 评论(0) 推荐(1) 编辑
摘要: NerdWallet 的使命是为生活中的所有财务决策提供清晰的信息。 这涵盖了一系列不同的主题:从选择合适的信用卡到管理您的支出,到找到最好的个人贷款,再到为您的抵押贷款再融资。 因此,NerdWallet 提供了跨越众多领域的强大功能,例如信用监控和警报、用于跟踪净值和现金流的仪表板、机器学习 ( 阅读全文
posted @ 2023-02-12 10:29 leesf 阅读(179) 评论(1) 推荐(0) 编辑
摘要: 介绍 从数据库到数据仓库,最后到数据湖,随着数据量和数据源的增加,数据格局正在迅速变化。 数据湖市场预计增长近 30%,将从 2020 年的 37.4 亿美元增长到 2026 年的 176 亿美元。 此外从 2022 年数据和人工智能峰会来看,数据湖架构显然是数据管理和治理的未来。 由于 Datab 阅读全文
posted @ 2022-12-25 20:50 leesf 阅读(303) 评论(1) 推荐(2) 编辑
摘要: Hudi索引在数据读和写的过程中都有应用。读的过程主要是查询引擎利用MetaDataTable使用索引进行Data Skipping以提高查找速度;写的过程主要应用在upsert写上,即利用索引查找该纪录是新增(I)还是更新(U),以提高写入过程中纪录的打标(tag)速度。 MetaDataTabl 阅读全文
posted @ 2022-12-18 19:27 leesf 阅读(698) 评论(0) 推荐(0) 编辑
摘要: 背景 在 Apache Hudi支持完整的Schema演变的方案中(https://mp.weixin.qq.com/s/rSW864o2YEbHw6oQ4Lsq0Q), 读取方面,只完成了SQL on Spark的支持(Spark3以上,用于离线分析场景),Presto(用于在线OLAP场景)及A 阅读全文
posted @ 2022-12-04 18:54 leesf 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 你曾经是否有构建一个开源数据湖来存储数据以进行分析需求? 数据湖包括哪些组件和功能? 不了解 Lakehouse 和 数据仓库 之间的区别? 或者只是想管理数百到数千个文件并拥有更多类似数据库的功能但不知道如何操作? 本文解释了数据湖的细节以及哪些技术可以构建一个Lakehouse,以避免创建没有结 阅读全文
posted @ 2022-11-27 11:13 leesf 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 1.场景需求 在医疗场景下,涉及到的业务库有几十个,可能有上万张表要做实时入湖,其中还有某些库的表结构修改操作是通过业务人员在网页手工实现,自由度较高,导致整体上存在非常多的新增列,删除列,改列名的情况。由于Apache Hudi 0.9.0 版本到 0.11.0 版本之间只支持有限的schema变 阅读全文
posted @ 2022-11-20 11:31 leesf 阅读(393) 评论(0) 推荐(0) 编辑
摘要: 背景 湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向。 华为云早在2020年就开始着手相关技术的预研,并落地在华为云 FusionInsight MRS智能数据湖解决方案中。 目前主流的三大数据湖组件 Apache Hudi、I 阅读全文
posted @ 2022-11-07 09:13 leesf 阅读(504) 评论(0) 推荐(0) 编辑
摘要: 了解使用开源技术构建现代数据栈的详细指南。 在过去的几年里,数据工程领域的重要性突飞猛进,为加速创新和进步打开了大门——从今天开始,越来越多的人开始思考数据资源以及如何更好地利用它们。这一进步反过来又导致了数据技术的“第三次浪潮”。 “第一次浪潮”包括 ETL、OLAP 和关系数据仓库,它们是商业智 阅读全文
posted @ 2022-10-23 16:44 leesf 阅读(720) 评论(2) 推荐(1) 编辑
摘要: 数据是当今分析世界的宝贵资产。 在向最终用户提供数据时,跟踪数据在一段时间内的变化非常重要。 渐变维度 (SCD) 是随时间推移存储和管理当前和历史数据的维度。 在 SCD 的类型中,我们将特别关注类型 2(SCD 2),它保留了值的完整历史。 每条记录都包含有效时间和到期时间,以标识记录处于活动状 阅读全文
posted @ 2022-10-16 10:34 leesf 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 认识Lakehouse 数据仓库被认为是对结构化数据执行分析的标准,但它不能处理非结构化数据。 包括诸如文本、图像、音频、视频和其他格式的信息。 此外机器学习和人工智能在业务的各个方面变得越来越普遍,它们需要访问数据仓库之外的大量信息。 开放的Lakehouse 云计算发展引发了计算与存储分离,这利 阅读全文
posted @ 2022-09-24 11:27 leesf 阅读(506) 评论(0) 推荐(0) 编辑
摘要: 近年来出现了从单体架构向微服务架构的转变。微服务架构使应用程序更容易扩展和更快地开发,支持创新并加快新功能上线时间。但是这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难。为了获得更深入和更丰富的见解,企业应该将来自不同孤岛的所有数据集中到一个地方。 AWS 提供复制工具,例如 AWS D 阅读全文
posted @ 2022-09-04 20:40 leesf 阅读(542) 评论(0) 推荐(0) 编辑
摘要: 本博客的重点展示如何利用增量数据处理和执行字段级更新来构建一个开放式 Lakehouse。 我们很高兴地宣布,用户现在可以使用 Apache Hudi + dbt 来构建开放Lakehouse。 在深入了解细节之前,让我们先澄清一下本博客中使用的一些术语。 什么是 Apache Hudi? Apac 阅读全文
posted @ 2022-08-21 17:08 leesf 阅读(607) 评论(0) 推荐(0) 编辑
摘要: 为了有机地发展业务,每个组织都在迅速采用分析。 在分析过程的帮助下,产品团队正在接收来自用户的反馈,并能够以更快的速度交付新功能。 通过分析提供的对用户的更深入了解,营销团队能够调整他们的活动以针对特定受众。 只有当我们能够大规模提供分析时,这一切才有可能。 对数据湖的需求 在 NoBrokerco 阅读全文
posted @ 2022-08-20 22:00 leesf 阅读(559) 评论(0) 推荐(0) 编辑
摘要: 1. 介绍 最近几周,人们对比较 Hudi、Delta 和 Iceberg 的表现越来越感兴趣。 我们认为社区应该得到更透明和可重复的分析。 我们想就如何执行和呈现这些基准、它们带来什么价值以及我们应该如何解释它们添加我们的观点。 2. 现有方法存在哪些问题? 最近 Databeans 发布了一篇博 阅读全文
posted @ 2022-08-07 20:01 leesf 阅读(312) 评论(0) 推荐(0) 编辑
摘要: Schema Evolution(模式演进)允许用户轻松更改 Hudi 表的当前模式,以适应随时间变化的数据。 从 0.11.0 版本开始,支持 Spark SQL(spark3.1.x 和 spark3.2.1)对 Schema 演进的 DDL 支持并且标志为实验性的。 场景 可以添加、删除、修改 阅读全文
posted @ 2022-07-24 16:15 leesf 阅读(1010) 评论(0) 推荐(0) 编辑
摘要: 介绍 在 Hudi 0.10 中,我们引入了对高级数据布局优化技术的支持,例如 Z-order和希尔伯特空间填充曲线(作为新的聚类算法),即使在经常使用过滤器查询大表的复杂场景中,也可以在多个列而非单个列上进行数据跳过。 但实际上什么是Data Skipping数据跳过? 随着存储在数据湖中的数据规 阅读全文
posted @ 2022-07-18 22:09 leesf 阅读(582) 评论(0) 推荐(1) 编辑
摘要: 在我们之前的文章中,我们讨论了多模式索引的设计,这是一种用于Lakehouse架构的无服务器和高性能索引子系统,以提高查询和写入性能。在这篇博客中,我们讨论了构建如此强大的索引所需的机制,异步索引机制的设计,类似于 PostgreSQL 和 MySQL 等流行的数据库系统,它支持索引构建而不会阻塞写 阅读全文
posted @ 2022-07-07 06:46 leesf 阅读(860) 评论(0) 推荐(0) 编辑
摘要: 与许多其他事务数据系统一样,索引一直是 Apache Hudi 不可或缺的一部分,并且与普通表格式抽象不同。 在这篇博客中,我们讨论了我们如何重新构想索引并在 Apache Hudi 0.11.0 版本中构建新的多模式索引,这是用于 Lakehouse 架构的首创高性能索引子系统,以优化查询和写入事 阅读全文
posted @ 2022-06-12 17:53 leesf 阅读(464) 评论(0) 推荐(0) 编辑
摘要: Halodoc 数据工程已经从传统的数据平台 1.0 发展到使用 LakeHouse 架构的现代数据平台 2.0 的改造。在我们之前的博客中,我们提到了我们如何在 Halodoc 实施 Lakehouse 架构来服务于大规模的分析工作负载。 我们提到了平台 2.0 构建过程中的设计注意事项、最佳实践 阅读全文
posted @ 2022-06-09 14:09 leesf 阅读(399) 评论(0) 推荐(0) 编辑