StarTree支持Apache Iceberg扩展湖仓用例
StarTree支持Apache Iceberg以扩展湖仓用例
某实时分析平台今日宣布全面支持Apache Iceberg,成为最新支持该技术的数据分析提供商。其托管服务将采用Iceberg作为数据湖仓上的分析和服务层,即刻生效。
该举措为Iceberg在需要数千并发用户的高并发实时应用中创造了新用例。特别是使Iceberg能更轻松应用于面向客户的场景,让组织能够对外暴露数据而无需依赖复杂的多步骤管道。
Iceberg是位于云存储数据文件之上的管理层,可提高一致性、可管理性和查询性能。它已迅速成为事实上的表标准,取代了各种专有替代方案。
Iceberg提供对Parquet等结构化文件的事务性访问,但缺乏处理低延迟、高并发查询的原生能力。因此,组织通常将Iceberg数据提取到键值存储或专有格式等独立系统中以实现亚秒级响应,这需要工程密集型管道和数据复制,同时限制了灵活性。
"不仅复制数据,还因为必须物化所有维度和指标组合以便以类似键值存储的方式轻松查询,从而放大了数据本身,"该平台产品负责人表示。
该平台支持直接查询Iceberg表而无需移动或转换底层数据。集成支持开放格式并利用性能增强功能,包括索引和物化、本地缓存及智能预取。
"当今数据产品日益依赖湖仓中的历史数据,但服务层一直缺失,"首席营销官表示。"通过以亚秒级延迟直接查询Iceberg,我们消除了对中间管道、重复存储和外部数据库的需求。"
高管表示,Iceberg支持将该平台的可寻址市场从最初的流式和低延迟分析扩展到更广泛领域。"我们解决的主要挑战不再仅仅是数据新鲜度,而是帮助客户构建可扩展的数据产品,同时避免所有臃肿和复杂性。"
该平台支持在Iceberg表上直接定义各种索引和预聚合物化。数值数据、文本、JSON、地理空间数据等类型的索引可在计算节点上本地分布或存储在对象存储中。
该集成基于平台已完成的查询Parquet文件和基于S3的对象存储工作。"Parquet并非为随机读取访问设计,但我们已调整使用它作为前向索引,"产品负责人表示。"结合我们对Iceberg清单和元数据的理解,为我们提供了所需的构建模块。"
公司强调其查询引擎仍使用专有索引策略来实现性能,但数据本身保持开放格式。"我们不会将数据从Iceberg移动到专有格式,这种情况下唯一专有的是索引。"
支持Iceberg使金融科技等客户能够使用该平台为面向商户的仪表板提供支持,报告历史现金流或群体收入指标。运输和物流组织正在构建交互式仪表板以审查交付绩效、错误率和路线效率。在这两种情况下,数据不需要实时,但仍必须按照严格的服务级别协议为大型用户群提供服务。
某研究机构首席分析师表示,该方法解决了现代数据架构中日益增长的差距。"Iceberg采用正在加速,但大多数查询引擎无法满足面向客户应用的性能SLA。该平台无需复制即可高并发服务Iceberg数据的能力是一项及时的进步。"
产品负责人表示,使用Iceberg而非专有原生格式存在轻微性能权衡,但仍能处理每秒数百次查询并保持亚秒级延迟。
首席营销官表示,支持Iceberg的决定既反映了市场势头,也体现了实际客户需求。"我们所有客户都在询问Iceberg,它正成为湖仓存储的标准,这使我们能够原生支持该标准,同时简化数据产品服务架构。"
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号