摘要: 一、前言 在解决昨天的问题时,又引出了很多新的问题,如为什么要进行编码,这些编码的关系如何,如ASCII,IOS-8859-1,GB2312,GBK,Unicode之间的关系,笔者想要彻底理解字符编码背后的故事,遂进行了探索,具体笔记如下。如园友能读完本篇文章,我相信会解开很多疑惑。 二、字符编码 阅读全文
posted @ 2016-03-25 10:46 leesf 阅读(32972) 评论(12) 推荐(52) 编辑
摘要: 一、前言 相信大家平时肯定会收到朋友发来的链接,打开一看,哦,需要投票。投完票后弹出一个页面(恭喜您,您已经投票成功),再次点击的时候发现,啊哈,您的IP(***.***.***.***)已经投过票了,不能重复投票。这时候,我们可能会想,能不能突破ip地址的限制进行刷票呢?有了这样的想法,那就去做吧 阅读全文
posted @ 2016-01-30 08:49 leesf 阅读(14776) 评论(28) 推荐(28) 编辑
摘要: 认识Lakehouse 数据仓库被认为是对结构化数据执行分析的标准,但它不能处理非结构化数据。 包括诸如文本、图像、音频、视频和其他格式的信息。 此外机器学习和人工智能在业务的各个方面变得越来越普遍,它们需要访问数据仓库之外的大量信息。 开放的Lakehouse 云计算发展引发了计算与存储分离,这利 阅读全文
posted @ 2022-09-24 11:27 leesf 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 近年来出现了从单体架构向微服务架构的转变。微服务架构使应用程序更容易扩展和更快地开发,支持创新并加快新功能上线时间。但是这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难。为了获得更深入和更丰富的见解,企业应该将来自不同孤岛的所有数据集中到一个地方。 AWS 提供复制工具,例如 AWS D 阅读全文
posted @ 2022-09-04 20:40 leesf 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 本博客的重点展示如何利用增量数据处理和执行字段级更新来构建一个开放式 Lakehouse。 我们很高兴地宣布,用户现在可以使用 Apache Hudi + dbt 来构建开放Lakehouse。 在深入了解细节之前,让我们先澄清一下本博客中使用的一些术语。 什么是 Apache Hudi? Apac 阅读全文
posted @ 2022-08-21 17:08 leesf 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 为了有机地发展业务,每个组织都在迅速采用分析。 在分析过程的帮助下,产品团队正在接收来自用户的反馈,并能够以更快的速度交付新功能。 通过分析提供的对用户的更深入了解,营销团队能够调整他们的活动以针对特定受众。 只有当我们能够大规模提供分析时,这一切才有可能。 对数据湖的需求 在 NoBrokerco 阅读全文
posted @ 2022-08-20 22:00 leesf 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 1. 介绍 最近几周,人们对比较 Hudi、Delta 和 Iceberg 的表现越来越感兴趣。 我们认为社区应该得到更透明和可重复的分析。 我们想就如何执行和呈现这些基准、它们带来什么价值以及我们应该如何解释它们添加我们的观点。 2. 现有方法存在哪些问题? 最近 Databeans 发布了一篇博 阅读全文
posted @ 2022-08-07 20:01 leesf 阅读(172) 评论(0) 推荐(0) 编辑
摘要: Schema Evolution(模式演进)允许用户轻松更改 Hudi 表的当前模式,以适应随时间变化的数据。 从 0.11.0 版本开始,支持 Spark SQL(spark3.1.x 和 spark3.2.1)对 Schema 演进的 DDL 支持并且标志为实验性的。 场景 可以添加、删除、修改 阅读全文
posted @ 2022-07-24 16:15 leesf 阅读(426) 评论(0) 推荐(0) 编辑
摘要: 介绍 在 Hudi 0.10 中,我们引入了对高级数据布局优化技术的支持,例如 Z-order和希尔伯特空间填充曲线(作为新的聚类算法),即使在经常使用过滤器查询大表的复杂场景中,也可以在多个列而非单个列上进行数据跳过。 但实际上什么是Data Skipping数据跳过? 随着存储在数据湖中的数据规 阅读全文
posted @ 2022-07-18 22:09 leesf 阅读(317) 评论(0) 推荐(1) 编辑
摘要: 在我们之前的文章中,我们讨论了多模式索引的设计,这是一种用于Lakehouse架构的无服务器和高性能索引子系统,以提高查询和写入性能。在这篇博客中,我们讨论了构建如此强大的索引所需的机制,异步索引机制的设计,类似于 PostgreSQL 和 MySQL 等流行的数据库系统,它支持索引构建而不会阻塞写 阅读全文
posted @ 2022-07-07 06:46 leesf 阅读(497) 评论(0) 推荐(0) 编辑
摘要: 与许多其他事务数据系统一样,索引一直是 Apache Hudi 不可或缺的一部分,并且与普通表格式抽象不同。 在这篇博客中,我们讨论了我们如何重新构想索引并在 Apache Hudi 0.11.0 版本中构建新的多模式索引,这是用于 Lakehouse 架构的首创高性能索引子系统,以优化查询和写入事 阅读全文
posted @ 2022-06-12 17:53 leesf 阅读(196) 评论(0) 推荐(0) 编辑
摘要: Halodoc 数据工程已经从传统的数据平台 1.0 发展到使用 LakeHouse 架构的现代数据平台 2.0 的改造。在我们之前的博客中,我们提到了我们如何在 Halodoc 实施 Lakehouse 架构来服务于大规模的分析工作负载。 我们提到了平台 2.0 构建过程中的设计注意事项、最佳实践 阅读全文
posted @ 2022-06-09 14:09 leesf 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 1. 摘要 在 Halodoc,我们始终致力于为最终用户简化医疗保健服务,随着公司的发展,我们不断构建和提供新功能。 我们两年前建立的可能无法支持我们今天管理的数据量,以解决我们决定改进数据平台架构的问题。 在我们之前的博客中,我们谈到了现有平台的挑战以及为什么我们需要采用 Lake House 架 阅读全文
posted @ 2022-05-22 21:43 leesf 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 1. 摘要 数据平台已经彻底改变了公司存储、分析和使用数据的方式——但为了更有效地使用它们,它们需要可靠、高性能和透明。数据在制定业务决策和评估产品或 Halodoc 功能的性能方面发挥着重要作用。作为印度尼西亚最大的在线医疗保健公司的数据工程师,我们面临的主要挑战之一是在整个组织内实现数据民主化。 阅读全文
posted @ 2022-05-14 09:38 leesf 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 1. 业务背景介绍 客路旅行(KLOOK)是一家专注于境外目的地旅游资源整合的在线旅行平台,提供景点门票、一日游、特色体验、当地交通与美食预订服务。覆盖全球100个国家及地区,支持12种语言和41种货币的支付系统,与超过10000家商户合作伙伴紧密合作,为全球旅行者提供10万多种旅行体验预订服务。 阅读全文
posted @ 2022-05-12 23:14 leesf 阅读(447) 评论(0) 推荐(0) 编辑
摘要: 1. 摘要 数据是每项技术业务的支柱,作为一个健康医疗技术平台,Halodoc 更是如此,用户可以通过以下方式与 Halodoc 交互: 送药 与医生交谈 实验室测试 医院预约和药物 所有这些交互都会产生高度敏感、多样化且通常是非结构化的数据。 因此随着公司的成长,必须拥有一个强大的数据平台,平台需 阅读全文
posted @ 2022-05-04 20:38 leesf 阅读(495) 评论(0) 推荐(0) 编辑
摘要: 1. 现状说明 1.1 数据湖摄取和计算过程 - 处理更新 在我们的用例中1-10% 是对历史记录的更新。当记录更新时,我们需要从之前的 updated_date 分区中删除之前的条目,并将条目添加到最新的分区中,在没有删除和更新功能的情况下,我们必须重新读取整个历史表分区 → 去重数据 → 用新的 阅读全文
posted @ 2022-04-23 06:24 leesf 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 1. 摘要 在本博客中,我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。 增量消费--每 30 分钟处理一次数据,并在我们的组织内构建每小时级别的OLAP平台 事件流的无限回放--利用 Hudi 的提交时间线在超级便宜的云对象存储(如 AWS S3)中存储 10 天的事件 阅读全文
posted @ 2022-04-11 17:40 leesf 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 自从计算机出现以来,我们一直在尝试寻找计算机存储一些信息的方法,存储在计算机上的信息(也称为数据)有多种形式,数据变得如此重要,以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中,包括数据库、blob存储和其他方法,为了进行有效的业务分析,必须对现代应用程序创建的数据进行处理和分 阅读全文
posted @ 2022-04-07 08:22 leesf 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 基础介绍 Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。这两种原语分别是: Update/Delete记录:Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记 阅读全文
posted @ 2022-04-06 09:36 leesf 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 从 Hudi v0.10.0 开始,我们很高兴地宣布推出适用于 Deltastreamer 的 Debezium 源,它提供从 Postgres 和 MySQL 数据库到数据湖的变更捕获数据 (CDC) 的摄取。有关详细信息请参阅原始 RFC 1. 背景 当想要对来自事务数据库(如 Postgres 阅读全文
posted @ 2022-04-05 20:36 leesf 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 1. 摘要 Robinhood 的使命是使所有人的金融民主化。 Robinhood 内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础。 我们有各种数据源——OLTP 数据库、事件流和各种第 3 方数据源。需要快速、可靠、安全和以隐私为中心的数据湖摄取服务来支持各种报告、关键业务管道和仪表 阅读全文
posted @ 2022-03-31 15:54 leesf 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 1. 摘要 本文演示了使用外部表集成 Vertica 和 Apache Hudi。 在演示中我们使用 Spark 上的 Apache Hudi 将数据摄取到 S3 中,并使用 Vertica 外部表访问这些数据。 2. Apache Hudi介绍 Apache Hudi 是一种变更数据捕获 (CDC 阅读全文
posted @ 2022-03-29 15:50 leesf 阅读(306) 评论(0) 推荐(0) 编辑
摘要: Apache Hudi 的Payload是一种可扩展的数据处理机制,通过不同的Payload我们可以实现复杂场景的定制化数据写入方式,大大增加了数据处理的灵活性。Hudi Payload在写入和读取Hudi表时对数据进行去重、过滤、合并等操作的工具类,通过使用参数 "hoodie.datasourc 阅读全文
posted @ 2022-03-28 19:40 leesf 阅读(416) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。 但到目前为止,实际完成了什么? 目前有哪些方法? 它们在现实世界中的表现如何? 这些问题是本博客的重点。 有幸从事过各种数据库项目——RDBMS (Oracle)、NoSQL 键值存储 (Voldemort)、流数据库 ( 阅读全文
posted @ 2022-03-27 10:30 leesf 阅读(192) 评论(0) 推荐(1) 编辑
摘要: 从 Hudi 0.10.0版本开始,我们很高兴推出在数据库领域中称为 Z-Order 和 Hilbert 空间填充曲线的高级数据布局优化技术的支持。 1. 背景 Amazon EMR 团队最近发表了一篇很不错的文章展示了对数据进行聚簇是如何提高查询性能的,为了更好地了解发生了什么以及它与空间填充曲线 阅读全文
posted @ 2022-03-06 17:19 leesf 阅读(604) 评论(0) 推荐(1) 编辑
摘要: 本次分享分为5个部分介绍Apache Hudi的应用与实践 实时数据落地需求演进 基于Spark+Hudi的实时数据落地应用实践 基于Flink自定义实时数据落地实践 基于Flink+Hudi的应用实践 后续应用规划及展望 1. 实时数据落地需求演进 实时平台上线后,主要需求是开发实时报表,即抽取各 阅读全文
posted @ 2022-01-09 06:10 leesf 阅读(562) 评论(0) 推荐(0) 编辑