摘要:一、前言 在解决昨天的问题时,又引出了很多新的问题,如为什么要进行编码,这些编码的关系如何,如ASCII,IOS-8859-1,GB2312,GBK,Unicode之间的关系,笔者想要彻底理解字符编码背后的故事,遂进行了探索,具体笔记如下。如园友能读完本篇文章,我相信会解开很多疑惑。 二、字符编码 阅读全文
posted @ 2016-03-25 10:46 leesf 阅读(28619) 评论(11) 推荐(46) 编辑
摘要:一、前言 相信大家平时肯定会收到朋友发来的链接,打开一看,哦,需要投票。投完票后弹出一个页面(恭喜您,您已经投票成功),再次点击的时候发现,啊哈,您的IP(***.***.***.***)已经投过票了,不能重复投票。这时候,我们可能会想,能不能突破ip地址的限制进行刷票呢?有了这样的想法,那就去做吧 阅读全文
posted @ 2016-01-30 08:49 leesf 阅读(13469) 评论(28) 推荐(28) 编辑
摘要:1. 概述 成千上万的客户在Amazon EMR上使用Apache Spark,Apache Hive,Apache HBase,Apache Flink,Apache Hudi和Presto运行大规模数据分析应用程序。Amazon EMR自动管理这些框架的配置和扩缩容,并通过优化的运行时提供更高性 阅读全文
posted @ 2021-04-17 15:41 leesf 阅读(131) 评论(0) 推荐(0) 编辑
摘要:1. 重点特性 1.1 Flink集成 自从Hudi 0.7.0版本支持Flink写入后,Hudi社区又进一步完善了Flink和Hudi的集成。包括重新设计性能更好、扩展性更好、基于Flink状态索引的写入Pipeline;支持Flink写入MOR表;Flink批量读取COW和MOR表;流式读取MO 阅读全文
posted @ 2021-04-13 19:01 leesf 阅读(107) 评论(0) 推荐(0) 编辑
摘要:1. 介绍 Hudi中的每个记录都由HoodieKey唯一标识,HoodieKey由记录键和记录所属的分区路径组成。基于此设计Hudi可以将更新和删除快速应用于指定记录。Hudi使用分区路径字段对数据集进行分区,并且分区内的记录有唯一的记录键。由于仅在分区内保证唯一性,因此在不同分区之间可能存在具有 阅读全文
posted @ 2021-04-12 10:12 leesf 阅读(188) 评论(0) 推荐(0) 编辑
摘要:1. 引入 Apache Hudi是一个流行的开源的数据湖框架,Hudi提供的一个非常重要的特性是自动管理文件大小,而不用用户干预。大量的小文件将会导致很差的查询分析性能,因为查询引擎执行查询时需要进行太多次文件的打开/读取/关闭。在流式场景中不断摄取数据,如果不进行处理,会产生很多小文件。 2. 阅读全文
posted @ 2021-04-11 09:26 leesf 阅读(151) 评论(0) 推荐(0) 编辑
摘要:感谢阿里云 Blink 团队Danny Chan的投稿及完善Flink与Hudi集成工作。 1. 背景 Apache Hudi 是目前最流行的数据湖解决方案之一,Data Lake Analytics 集成了 Hudi 服务高效的数据 MERGE(UPDATE/DELETE)场景;AWS 在 EMR 阅读全文
posted @ 2021-04-10 12:18 leesf 阅读(156) 评论(0) 推荐(0) 编辑
摘要:1. 场景 https://hudi.apache.org/docs/use_cases.html 近实时写入 减少碎片化工具的使用 CDC 增量导入 RDBMS 数据 限制小文件的大小和数量 近实时分析 相对于秒级存储 (Druid, OpenTSDB) ,节省资源 提供分钟级别时效性,支撑更高效 阅读全文
posted @ 2021-04-08 13:01 leesf 阅读(165) 评论(0) 推荐(0) 编辑
摘要:1. 介绍 Apache Hudi是一个开源的数据湖框架,旨在简化增量数据处理和数据管道开发。借助Hudi可以在Amazon S3、Aliyun OSS数据湖中进行记录级别管理插入/更新/删除。AWS EMR集群已支持Hudi组件,并且可以与AWS Glue Data Catalog无缝集成。此特性 阅读全文
posted @ 2021-04-06 09:51 leesf 阅读(181) 评论(0) 推荐(0) 编辑
摘要:1. 介绍 经过Apache Hudi项目委员会讨论及投票,向WangXiangHu和LiWei 2人发出Committer邀请,2人均已接受邀请并顺利成为Committer,也使得Apache Hudi Committer成员在不断发展壮大。 Wang XiangHu参与Apache Hudi社区 阅读全文
posted @ 2021-03-07 17:04 leesf 阅读(169) 评论(0) 推荐(0) 编辑
摘要:重点特性 1. Clustering 0.7.0版本中支持了对Hudi表数据进行Clustering(对数据按照数据特征进行聚簇,以便优化文件大小和数据布局),Clustering提供了更灵活地方式增加文件大小,有了Clustering特性,便可更快速地摄取数据,然后聚簇为更大的文件,实验数据表明查 阅读全文
posted @ 2021-01-31 22:14 leesf 阅读(389) 评论(0) 推荐(0) 编辑
摘要:1. 摘要 数仓架构在未来一段时间内会逐渐消亡,会被一种新的Lakehouse架构取代,该架构主要有如下特性 基于开放的数据格式,如Parquet; 机器学习和数据科学将被作为头等公民支持; 提供卓越的性能; Lakehouse可以解决数据仓库面临的几个主要挑战,如数据陈旧,可靠性,总成本,数据格式 阅读全文
posted @ 2021-01-23 22:52 leesf 阅读(274) 评论(0) 推荐(0) 编辑
摘要:英文原文:https://hudi.apache.org/blog/hudi-indexing-mechanisms/ Apache Hudi使用索引来定位更删操作所在的文件组。对于Copy-On-Write表,索引能加快更删的操作,因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge 阅读全文
posted @ 2021-01-01 09:59 leesf 阅读(324) 评论(1) 推荐(0) 编辑
摘要:T3出行的杨华和张永旭描述了他们数据湖架构的发展。该架构使用了众多开源技术,包括Apache Hudi和Alluxio。在本文中,您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半。此外,数据分析人员如何使用Presto、Hudi和Alluxio让查询速度提高了10倍。我们基于数据编 阅读全文
posted @ 2020-12-06 21:14 leesf 阅读(474) 评论(0) 推荐(1) 编辑
摘要:在深入研究Hudi机制之前,让我们首先了解Hudi正在解决的问题。 客户在使用数据湖时通常会问一个问题:当源记录被更新时,如何更新数据湖?这是一个很难解决的问题,因为一旦你写了CSV或Parquet文件,唯一的选择就是重写它们,没有一种简单的机制可以打开这些文件,找到一条记录并用源代码中的最新值更新 阅读全文
posted @ 2020-11-27 23:31 leesf 阅读(581) 评论(0) 推荐(1) 编辑
摘要:1. 引入 数据湖使组织能够在更短的时间内利用多个源的数据,而不同角色用户可以以不同的方式协作和分析数据,从而实现更好、更快的决策。Amazon Simple Storage Service(amazon S3)是针对结构化和非结构化数据的高性能对象存储服务,可以用来作为数据湖底层的存储服务。 然而 阅读全文
posted @ 2020-11-05 11:45 leesf 阅读(418) 评论(0) 推荐(0) 编辑
摘要:1. 起源 作为印度最大的在线杂货公司的数据工程师,我们面临的主要挑战之一是让数据在整个组织中的更易用。但当评估这一目标时,我们意识到数据管道频繁出现错误已经导致业务团队对数据失去信心,结果导致他们永远无法确定哪个数据源是正确的并且可用于分析,因此每个步骤都会咨询数据平台团队,数据平台团队原本应该提 阅读全文
posted @ 2020-10-27 09:34 leesf 阅读(587) 评论(5) 推荐(1) 编辑
摘要:1. 概述 在nClouds上,当客户的业务决策取决于对近实时数据的访问时,客户通常会向我们寻求有关数据和分析平台的解决方案。但随着每天创建和收集的数据量都在增加,这使得使用传统技术进行数据分析成为一项艰巨的任务。 本文我们将讨论nClouds如何帮助您应对数据延迟,数据质量,系统可靠性和数据隐私合 阅读全文
posted @ 2020-10-21 09:29 leesf 阅读(210) 评论(0) 推荐(0) 编辑
摘要:感谢王祥虎@wangxianghu 投稿 Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。 1. 为何要解耦 Hudi自诞生至今一直使用Spark作为其数据处理引擎。 阅读全文
posted @ 2020-10-13 09:53 leesf 阅读(1901) 评论(0) 推荐(0) 编辑
摘要:此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift查询Hudi表,现在它终于来了。 现在您可以使用Amazon Redshift查询Amazon S3 数据湖中Apache Hudi/Delta Lake表数据。Amazon Redshift Spectrum作为A 阅读全文
posted @ 2020-09-27 20:29 leesf 阅读(407) 评论(0) 推荐(0) 编辑
摘要:一篇由Apache Hudi PMC Bhavani Sudha Saktheeswaran和AWS Presto团队工程师Brandon Scheller分享Apache Hudi和Presto集成的一篇文章。 1. 概述 Apache Hudi 是一个快速迭代的数据湖存储系统,可以帮助企业构建和 阅读全文
posted @ 2020-09-22 07:42 leesf 阅读(820) 评论(0) 推荐(0) 编辑
摘要:1. 介绍 经过Apache Hudi项目委员会讨论及投票,向Udit Mehrotra、Gary Li、Raymond Xu、Pratyaksh Sharma 4人发出Committer邀请,4人均已接受邀请并顺利成为Committer,也使得Apache Hudi Committer成员在不断发 阅读全文
posted @ 2020-09-14 18:56 leesf 阅读(423) 评论(0) 推荐(0) 编辑
摘要:本篇文章对执行异步Compaction的不同部署模型一探究竟。 1. Compaction 对于Merge-On-Read表,数据使用列式Parquet文件和行式Avro文件存储,更新被记录到增量文件,然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据 阅读全文
posted @ 2020-09-12 21:35 leesf 阅读(539) 评论(0) 推荐(0) 编辑
摘要:1. 下载信息 源码:Apache Hudi 0.6.0 Source Release (asc, sha512) 二进制Jar包:nexus 2. 迁移指南 如果您从0.5.3以前的版本迁移至0.6.0,请仔细核对每个版本的迁移指南; 0.6.0版本从基于list的rollback策略变更为了基于 阅读全文
posted @ 2020-08-26 09:09 leesf 阅读(620) 评论(0) 推荐(1) 编辑
摘要:1. 引入 Apache Hudi支持多种分区方式数据集,如多级分区、单分区、时间日期分区、无分区数据集等,用户可根据实际需求选择合适的分区方式,下面来详细了解Hudi如何配置何种类型分区。 2. 分区处理 为说明Hudi对不同分区类型的处理,假定写入Hudi的Schema如下 { "type" : 阅读全文
posted @ 2020-08-18 09:48 leesf 阅读(847) 评论(0) 推荐(0) 编辑
摘要:1. 引入 Hudi 0.6.0版本之前只支持将Hudi表同步到Hive或者兼容Hive的MetaStore中,对于云上其他使用与Hive不同SQL语法MetaStore则无法支持,为解决这个问题,近期社区对原先的同步模块hudi-hive-sync进行了抽象改造,以支持将Hudi表同步到其他类型M 阅读全文
posted @ 2020-08-10 19:01 leesf 阅读(433) 评论(0) 推荐(0) 编辑
摘要:Apache Hudi在阿里巴巴集团、EMIS Health,LinkNovate,Tathastu.AI,腾讯,Uber内使用,并且由Amazon AWS EMR和Google云平台支持,最近Amazon Athena支持了在Amazon S3上查询Apache Hudi数据集的能力,本博客将测试 阅读全文
posted @ 2020-08-03 19:25 leesf 阅读(890) 评论(0) 推荐(0) 编辑