摘要: 一、前言 在解决昨天的问题时,又引出了很多新的问题,如为什么要进行编码,这些编码的关系如何,如ASCII,IOS-8859-1,GB2312,GBK,Unicode之间的关系,笔者想要彻底理解字符编码背后的故事,遂进行了探索,具体笔记如下。如园友能读完本篇文章,我相信会解开很多疑惑。 二、字符编码 阅读全文
posted @ 2016-03-25 10:46 leesf 阅读(29846) 评论(12) 推荐(48) 编辑
摘要: 一、前言 相信大家平时肯定会收到朋友发来的链接,打开一看,哦,需要投票。投完票后弹出一个页面(恭喜您,您已经投票成功),再次点击的时候发现,啊哈,您的IP(***.***.***.***)已经投过票了,不能重复投票。这时候,我们可能会想,能不能突破ip地址的限制进行刷票呢?有了这样的想法,那就去做吧 阅读全文
posted @ 2016-01-30 08:49 leesf 阅读(13851) 评论(28) 推荐(28) 编辑
摘要: 1. 摘要 Hudi 支持在写入时自动清理未成功提交的数据。Apache Hudi 在写入时引入标记机制来有效跟踪写入存储的数据文件。 在本博客中,我们将深入探讨现有直接标记文件机制的设计,并解释了其在云存储(如 AWS S3、Aliyun OSS)上针对非常大批量写入的性能问题。 并且演示如何通过 阅读全文
posted @ 2021-09-12 21:36 leesf 阅读(38) 评论(0) 推荐(0) 编辑
摘要: 1. 重点特性 1.1 Spark SQL支持 0.9.0 添加了对使用 Spark SQL 的 DDL/DML 的支持,朝着使所有角色(非工程师、分析师等)更容易访问和操作 Hudi 迈出了一大步。 用户现在可以使用 CREATE TABLE....USING HUDI 和 CREATE TABL 阅读全文
posted @ 2021-09-05 22:31 leesf 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享。 接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。 在推荐系统中,我们在两个场景下使用数据湖 我们使用BigTable作为整个系统近线处理的数据 阅读全文
posted @ 2021-08-29 09:26 leesf 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 1. 传统数据湖存在的问题与挑战 传统数据湖解决方案中,常用Hive来构建T+1级别的数据仓库,通过HDFS存储实现海量数据的存储与水平扩容,通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果,但依然存在如下现状问题: 问题一:不支持事务 由于传统大数据方案 阅读全文
posted @ 2021-08-22 21:59 leesf 阅读(109) 评论(0) 推荐(0) 编辑
摘要: 全球最大云厂商AWS的 Athena 团队又更新了 Athena 与 Apache Hudi 的集成,以支持新功能及最新的 0.8.0 社区版本。早在Apache Hudi还处于孵化阶段时,AWS Athena 便集成了 Hudi 以支持广大客户在S3上变更数据的需求,随着Hudi被全球各大云厂商集 阅读全文
posted @ 2021-08-22 21:57 leesf 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 1. 介绍 经过Apache Hudi项目委员会讨论及投票决定,来自阿里云的Pengzhiwei和DannyChan成为Apache Hudi Committer,新晋人才也保证了Hudi社区在正确的轨道上不断发展。 Pengzhiwei持续在Apache Hudi社区贡献,开发了诸多特性,如Spa 阅读全文
posted @ 2021-08-01 10:39 leesf 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批流一体计算引擎处理,最后输出到下游对应的存储。 2. 模型特征架构的演进 2.1 第一代架构 广告业务发展初期,为 阅读全文
posted @ 2021-07-11 22:51 leesf 阅读(341) 评论(0) 推荐(0) 编辑
摘要: Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务,以将特征物化到在线特征存储库,不仅仅保证低延迟访问,而且还保证在服务时间可以访问最新鲜的特征值。 企业机器学习模型为指导产品用户交互提供了价值价值。通常这些 ML 模型应用 阅读全文
posted @ 2021-07-04 11:35 leesf 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 1. 背景 多维分析是大数据分析的一个典型场景,这种分析一般带有过滤条件。对于此类查询,尤其是在高基字段的过滤查询,理论上只我们对原始数据做合理的布局,结合相关过滤条件,查询引擎可以过滤掉大量不相关数据,只需读取很少部分需要的数据。例如我们在入库之前对相关字段做排序,这样生成的每个文件相关字段的mi 阅读全文
posted @ 2021-06-20 20:09 leesf 阅读(328) 评论(0) 推荐(0) 编辑
摘要: Apache Hudi提供了MVCC并发模型,保证写入端和读取端之间快照级别隔离。在本篇博客中我们将介绍如何配置来管理多个文件版本,此外还将讨论用户可使用的清理机制,以了解如何维护所需数量的旧文件版本,以使长时间运行的读取端不会失败。 1. 回收空间以控制存储成本 Hudi 提供不同的表管理服务来管 阅读全文
posted @ 2021-06-17 23:44 leesf 阅读(240) 评论(0) 推荐(0) 编辑
摘要: Apache Hudi是一个开源数据湖管理平台,用于简化增量数据处理和数据管道开发,该平台可以有效地管理业务需求,例如数据生命周期,并提高数据质量。Hudi的一些常见用例是记录级的插入、更新和删除、简化文件管理和近乎实时的数据访问以及简化的CDC数据管道开发。 本期SOFTWARE DAILY我们有 阅读全文
posted @ 2021-06-16 23:40 leesf 阅读(220) 评论(0) 推荐(0) 编辑
摘要: Q1. What are you trying to do? Articulate your objectives using absolutely no jargon. Q2. What problem is this proposal NOT designed to solve? Q3. How 阅读全文
posted @ 2021-06-15 22:48 leesf 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 1. 动机 Lakehouse最早由Databricks公司提出,其可作为低成本、直接访问云存储并提供传统DBMS管系统性能和ACID事务、版本、审计、索引、缓存、查询优化的数据管理系统,Lakehouse结合数据湖和数据仓库的优点:包括数据湖的低成本存储和开放数据格式访问,数据仓库强大的管理和优化 阅读全文
posted @ 2021-05-30 10:57 leesf 阅读(239) 评论(0) 推荐(0) 编辑
摘要: Apache Hudi集成Spark SQL抢先体验 1. 摘要 社区小伙伴一直期待的Hudi整合Spark SQL的PR正在积极Review中并已经快接近尾声,Hudi集成Spark SQL预计会在下个版本正式发布,在集成Spark SQL后,会极大方便用户对Hudi表的DDL/DML操作,下面就 阅读全文
posted @ 2021-05-23 21:34 leesf 阅读(652) 评论(0) 推荐(0) 编辑
摘要: 分享一篇关于使用Hudi Clustering来优化Presto查询性能的talk talk主要分为如下几个部分 演讲者背景介绍 Apache Hudi介绍 数据湖演进和用例说明 Hudi Clustering介绍 Clustering性能和使用 未来工作 该talk的演讲者为Nishith Aga 阅读全文
posted @ 2021-05-16 18:07 leesf 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 1. Glue与Hudi简介 AWS Glue AWS Glue是Amazon Web Services(AWS)云平台推出的一款无服务器(Serverless)的大数据分析服务。对于不了解该产品的读者来说,可以用一句话概括其实质:Glue是一个无服务器的全托管的Spark运行环境,只需提供Spar 阅读全文
posted @ 2021-05-09 22:08 leesf 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 随着数据湖概念的流行,涌现了很多关于Apache Hudi的文章,但很多文章在阐述时仅仅将Hudi当做一种表格式,这引发了社区的思考,思考Hudi的愿景到底是什么,并且在Hudi社区发起了讨论重新审视Hudi。 我们更倾向于将Hudi当做一个数据湖平台,包含表格式,还包含支持事务的存储层。并重新设计 阅读全文
posted @ 2021-04-24 21:49 leesf 阅读(77) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 成千上万的客户在Amazon EMR上使用Apache Spark,Apache Hive,Apache HBase,Apache Flink,Apache Hudi和Presto运行大规模数据分析应用程序。Amazon EMR自动管理这些框架的配置和扩缩容,并通过优化的运行时提供更高性 阅读全文
posted @ 2021-04-17 15:41 leesf 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 1. 重点特性 1.1 Flink集成 自从Hudi 0.7.0版本支持Flink写入后,Hudi社区又进一步完善了Flink和Hudi的集成。包括重新设计性能更好、扩展性更好、基于Flink状态索引的写入Pipeline;支持Flink写入MOR表;Flink批量读取COW和MOR表;流式读取MO 阅读全文
posted @ 2021-04-13 19:01 leesf 阅读(362) 评论(0) 推荐(0) 编辑
摘要: 1. 介绍 Hudi中的每个记录都由HoodieKey唯一标识,HoodieKey由记录键和记录所属的分区路径组成。基于此设计Hudi可以将更新和删除快速应用于指定记录。Hudi使用分区路径字段对数据集进行分区,并且分区内的记录有唯一的记录键。由于仅在分区内保证唯一性,因此在不同分区之间可能存在具有 阅读全文
posted @ 2021-04-12 10:12 leesf 阅读(579) 评论(0) 推荐(0) 编辑
摘要: 1. 引入 Apache Hudi是一个流行的开源的数据湖框架,Hudi提供的一个非常重要的特性是自动管理文件大小,而不用用户干预。大量的小文件将会导致很差的查询分析性能,因为查询引擎执行查询时需要进行太多次文件的打开/读取/关闭。在流式场景中不断摄取数据,如果不进行处理,会产生很多小文件。 2. 阅读全文
posted @ 2021-04-11 09:26 leesf 阅读(537) 评论(0) 推荐(0) 编辑
摘要: 感谢阿里云 Blink 团队Danny Chan的投稿及完善Flink与Hudi集成工作。 1. 背景 Apache Hudi 是目前最流行的数据湖解决方案之一,Data Lake Analytics 集成了 Hudi 服务高效的数据 MERGE(UPDATE/DELETE)场景;AWS 在 EMR 阅读全文
posted @ 2021-04-10 12:18 leesf 阅读(1450) 评论(0) 推荐(0) 编辑
摘要: 1. 场景 https://hudi.apache.org/docs/use_cases.html 近实时写入 减少碎片化工具的使用 CDC 增量导入 RDBMS 数据 限制小文件的大小和数量 近实时分析 相对于秒级存储 (Druid, OpenTSDB) ,节省资源 提供分钟级别时效性,支撑更高效 阅读全文
posted @ 2021-04-08 13:01 leesf 阅读(535) 评论(0) 推荐(0) 编辑
摘要: 1. 介绍 Apache Hudi是一个开源的数据湖框架,旨在简化增量数据处理和数据管道开发。借助Hudi可以在Amazon S3、Aliyun OSS数据湖中进行记录级别管理插入/更新/删除。AWS EMR集群已支持Hudi组件,并且可以与AWS Glue Data Catalog无缝集成。此特性 阅读全文
posted @ 2021-04-06 09:51 leesf 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 1. 介绍 经过Apache Hudi项目委员会讨论及投票,向WangXiangHu和LiWei 2人发出Committer邀请,2人均已接受邀请并顺利成为Committer,也使得Apache Hudi Committer成员在不断发展壮大。 Wang XiangHu参与Apache Hudi社区 阅读全文
posted @ 2021-03-07 17:04 leesf 阅读(315) 评论(0) 推荐(0) 编辑