摘要:一、前言 在解决昨天的问题时,又引出了很多新的问题,如为什么要进行编码,这些编码的关系如何,如ASCII,IOS-8859-1,GB2312,GBK,Unicode之间的关系,笔者想要彻底理解字符编码背后的故事,遂进行了探索,具体笔记如下。如园友能读完本篇文章,我相信会解开很多疑惑。 二、字符编码 阅读全文
posted @ 2016-03-25 10:46 leesf 阅读(26832) 评论(11) 推荐(45) 编辑
摘要:一、前言 相信大家平时肯定会收到朋友发来的链接,打开一看,哦,需要投票。投完票后弹出一个页面(恭喜您,您已经投票成功),再次点击的时候发现,啊哈,您的IP(***.***.***.***)已经投过票了,不能重复投票。这时候,我们可能会想,能不能突破ip地址的限制进行刷票呢?有了这样的想法,那就去做吧 阅读全文
posted @ 2016-01-30 08:49 leesf 阅读(12801) 评论(28) 推荐(28) 编辑
摘要:1. 概述 在nClouds上,当客户的业务决策取决于对近实时数据的访问时,客户通常会向我们寻求有关数据和分析平台的解决方案。但随着每天创建和收集的数据量都在增加,这使得使用传统技术进行数据分析成为一项艰巨的任务。 本文我们将讨论nClouds如何帮助您应对数据延迟,数据质量,系统可靠性和数据隐私合 阅读全文
posted @ 2020-10-21 09:29 leesf 阅读(89) 评论(0) 推荐(0) 编辑
摘要:感谢王祥虎@wangxianghu 投稿 Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。 1. 为何要解耦 Hudi自诞生至今一直使用Spark作为其数据处理引擎。 阅读全文
posted @ 2020-10-13 09:53 leesf 阅读(199) 评论(0) 推荐(0) 编辑
摘要:此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift查询Hudi表,现在它终于来了。 现在您可以使用Amazon Redshift查询Amazon S3 数据湖中Apache Hudi/Delta Lake表数据。Amazon Redshift Spectrum作为A 阅读全文
posted @ 2020-09-27 20:29 leesf 阅读(123) 评论(0) 推荐(0) 编辑
摘要:一篇由Apache Hudi PMC Bhavani Sudha Saktheeswaran和AWS Presto团队工程师Brandon Scheller分享Apache Hudi和Presto集成的一篇文章。 1. 概述 Apache Hudi 是一个快速迭代的数据湖存储系统,可以帮助企业构建和 阅读全文
posted @ 2020-09-22 07:42 leesf 阅读(213) 评论(0) 推荐(0) 编辑
摘要:1. 介绍 经过Apache Hudi项目委员会讨论及投票,向Udit Mehrotra、Gary Li、Raymond Xu、Pratyaksh Sharma 4人发出Committer邀请,4人均已接受邀请并顺利成为Committer,也使得Apache Hudi Committer成员在不断发 阅读全文
posted @ 2020-09-14 18:56 leesf 阅读(184) 评论(0) 推荐(0) 编辑
摘要:本篇文章对执行异步Compaction的不同部署模型一探究竟。 1. Compaction 对于Merge-On-Read表,数据使用列式Parquet文件和行式Avro文件存储,更新被记录到增量文件,然后进行同步/异步compaction生成新版本的列式文件。Merge-On-Read表可减少数据 阅读全文
posted @ 2020-09-12 21:35 leesf 阅读(82) 评论(0) 推荐(0) 编辑
摘要:1. 下载信息 源码:Apache Hudi 0.6.0 Source Release (asc, sha512) 二进制Jar包:nexus 2. 迁移指南 如果您从0.5.3以前的版本迁移至0.6.0,请仔细核对每个版本的迁移指南; 0.6.0版本从基于list的rollback策略变更为了基于 阅读全文
posted @ 2020-08-26 09:09 leesf 阅读(337) 评论(0) 推荐(1) 编辑
摘要:1. 引入 Apache Hudi支持多种分区方式数据集,如多级分区、单分区、时间日期分区、无分区数据集等,用户可根据实际需求选择合适的分区方式,下面来详细了解Hudi如何配置何种类型分区。 2. 分区处理 为说明Hudi对不同分区类型的处理,假定写入Hudi的Schema如下 { "type" : 阅读全文
posted @ 2020-08-18 09:48 leesf 阅读(250) 评论(0) 推荐(0) 编辑
摘要:1. 引入 Hudi 0.6.0版本之前只支持将Hudi表同步到Hive或者兼容Hive的MetaStore中,对于云上其他使用与Hive不同SQL语法MetaStore则无法支持,为解决这个问题,近期社区对原先的同步模块hudi-hive-sync进行了抽象改造,以支持将Hudi表同步到其他类型M 阅读全文
posted @ 2020-08-10 19:01 leesf 阅读(128) 评论(0) 推荐(0) 编辑
摘要:Apache Hudi在阿里巴巴集团、EMIS Health,LinkNovate,Tathastu.AI,腾讯,Uber内使用,并且由Amazon AWS EMR和Google云平台支持,最近Amazon Athena支持了在Amazon S3上查询Apache Hudi数据集的能力,本博客将测试 阅读全文
posted @ 2020-08-03 19:25 leesf 阅读(291) 评论(0) 推荐(0) 编辑
摘要:1. 引入 Apache Hudi是一个开源的增量数据处理框架,提供了行级insert、update、upsert、delete的细粒度处理能力(Upsert表示如果数据集中存在记录就更新;否则插入)。 Hudi处理数据插入和更新,不会创建太多的小文件(小文件会导致查询端性能降低),Apache H 阅读全文
posted @ 2020-07-27 11:19 leesf 阅读(185) 评论(0) 推荐(1) 编辑
摘要:原文链接:https://mp.weixin.qq.com/s/sT2-KK23tvPY2oziEH11Kw 1. 什么是Alluxio Alluxio为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。这还使得应用程序能够通过一个公共接口连 阅读全文
posted @ 2020-07-20 20:51 leesf 阅读(175) 评论(0) 推荐(0) 编辑
摘要:1. 摘要 随着Apache Hudi变得越来越流行,一个挑战就是用户如何将存量的历史表迁移到Apache Hudi,Apache Hudi维护了记录级别的元数据以便提供upserts和增量拉取的核心能力。为利用Hudi的upsert和增量拉取能力,用户需要重写整个数据集让其成为Hudi表。此RFC 阅读全文
posted @ 2020-07-13 09:16 leesf 阅读(269) 评论(0) 推荐(0) 编辑
摘要:1. 摘要 Hudi表允许多种类型操作,包括非常常用的upsert,当然为支持upsert,Hudi依赖索引机制来定位记录在哪些文件中。 当前,Hudi支持分区和非分区的数据集。分区数据集是将一组文件(数据)放在称为分区的桶中的数据集。一个Hudi数据集可能由N个分区和M个文件组成,这种组织结构也非 阅读全文
posted @ 2020-07-06 18:42 leesf 阅读(224) 评论(0) 推荐(0) 编辑
摘要:一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk 关于Nishith Agarwal更详细的介绍,主要从事数据方面的工作,包括摄取标准化,数据湖原语等。 什么是数据湖?数据湖是一个集中式的存储,允许以任意规模 阅读全文
posted @ 2020-06-27 21:30 leesf 阅读(409) 评论(0) 推荐(0) 编辑
摘要:1. 引入 开源Apache Hudi项目为Uber等大型组织提供流处理能力,每天可处理数据湖上的数十亿条记录。 随着世界各地的组织采用该技术,Apache开源数据湖项目已经日渐成熟。 Apache Hudi(Hadoop Upserts Deletes and Incrementals)是一个数据 阅读全文
posted @ 2020-06-21 12:43 leesf 阅读(298) 评论(0) 推荐(0) 编辑
摘要:1. 下载连接 源代码下载:Apache Hudi 0.5.3 Source Release (asc, sha512) 0.5.3版本相关jar包地址:https://repository.apache.org/#nexus-search;quick~hudi 2. 迁移指南 这是一个bugfix 阅读全文
posted @ 2020-06-19 09:41 leesf 阅读(315) 评论(0) 推荐(0) 编辑
摘要:1. 引入 大多数现代数据湖都是基于某种分布式文件系统(DFS),如HDFS或基于云的存储,如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用,如数百GB到TB的数据。 但是在构建分析数据湖时,更新数据并不罕见。根据不同场景,这些更新频率可能是每 阅读全文
posted @ 2020-06-15 09:27 leesf 阅读(598) 评论(0) 推荐(0) 编辑
摘要:1. 引言 从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年,Uber开发了增量处理框架Apache Hudi,以低延迟和高效率为关键业务数据管道赋能。一年后,我们开源了该解决方案,以使得其他有需要的组织也可以 阅读全文
posted @ 2020-06-11 09:29 leesf 阅读(352) 评论(0) 推荐(1) 编辑
摘要:通过Spark作业将数据写入Hudi时,Spark应用的调优技巧也适用于此。如果要提高性能或可靠性,请牢记以下几点。 **输入并行性:**Hudi对输入进行分区默认并发度为1500,以确保每个Spark分区都在2GB的限制内(在Spark2.4.0版本之后去除了该限制),如果有更大的输入,则相应地进 阅读全文
posted @ 2020-06-06 15:54 leesf 阅读(251) 评论(0) 推荐(0) 编辑
摘要:马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF)、350多个开源项目和全职开发人员、管理人员和孵化器宣布:Apache Hudi正式成为Apache顶级项目(TLP)。在投票表决Hudi毕业时,Hudi总共获得了19票binding(其中包括A 阅读全文
posted @ 2020-06-05 13:42 leesf 阅读(465) 评论(2) 推荐(0) 编辑
摘要:1. 可用性 在Hudi最新master分支,由Hudi活跃贡献者Raymond Xu贡献了DataDog监控Hudi应用指标,该功能将在0.6.0 版本发布,也感谢Raymond的投稿。 2. 简介 Datadog是一个流行的监控服务。在即将发布的Apache Hudi 0.6.0版本中,除已有的 阅读全文
posted @ 2020-06-03 20:17 leesf 阅读(273) 评论(0) 推荐(0) 编辑
摘要:本篇文章主要介绍Hudi在医疗大数据中的应用,主要分为5个部分进行介绍:1. 建设背景,2. 为什么选择Hudi,3. Hudi数据同步,4. 存储类型选择及查询优化,5. 未来发展与思考。 1. 建设背景 我们公司主要为医院建立大数据应用平台,需要从各个医院系统中抽取数据建立大数据平台。如医院信息 阅读全文
posted @ 2020-05-29 23:54 leesf 阅读(367) 评论(0) 推荐(0) 编辑
摘要:1. 引入 线上用户反馈使用Presto查询Hudi表出现错误,而将Hudi表的文件单独创建parquet类型表时查询无任何问题,关键报错信息如下 报Hudi表中文件格式不是合法的parquet格式错误。 2. 问题复现 开始根据用户提供的信息,模拟线上Hudi数据集大小、Presto和Hudi版本 阅读全文
posted @ 2020-05-23 18:39 leesf 阅读(458) 评论(0) 推荐(0) 编辑
摘要:1.近实时摄取 将数据从外部源如事件日志、数据库提取到 "Hadoop数据湖" 中是一个很常见的问题。在大多数Hadoop部署中,一般使用混合提取工具并以零散的方式解决该问题,尽管这些数据对组织是非常有价值的。 对于RDBMS摄取,Hudi通过Upserts提供了更快的负载,而非昂贵且低效的批量负载 阅读全文
posted @ 2020-05-19 18:49 leesf 阅读(533) 评论(0) 推荐(0) 编辑