摘要:
SparkSQL是Spark生态系统中非常重要的组件。面向企业级服务时,SparkSQL存在易用性较差的问题,导致难满足日常的业务开发需求。本文将详细解读,如何通过构建SparkSQL服务器实现使用效率提升和使用门槛降低。 前言 Spark 组件由于其较好的容错与故障恢复机制,在企业的长时作业中使用 阅读全文
posted @ 2022-05-11 16:49
字节跳动数据平台
阅读(540)
评论(0)
推荐(1)
面向快速迭代,如何降低上线风险?字节跳动 DataTester 团队找到风险与迭代的平衡点——渐进式发布。 阅读全文
字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 该方案在存储层提供对多流数据的关联能力, 阅读全文
背景 字节跳动开发套件数据集成团队(DTS ,Data Transmission Service)在字节跳动内基于 Flink 实现了流批一体的数据集成服务。其中一个典型场景是 Kafka/ByteMQ/RocketMQ → HDFS/Hive 。Kafka/ByteMQ/RocketMQ → HD 阅读全文
本文是字节跳动数据平台数据引擎SparkSQL团队针对 Spark History Server (SHS) 的优化实践分享。 文 | 字节跳动数据平台—数据引擎—SparkSQL团队 在字节跳动内部,我们实现了一套全新的云原生 Spark History 服务—— UIService,相比开源的 阅读全文
在线AB实验成为当今互联网公司中必不可少的数据驱动的工具,很多公司把自己的应用来做一次AB实验作为数据驱动的试金石。 文 | 松宝 来自 字节跳动数据平台团队增长平台 在线AB实验成为当今互联网公司中必不可少的数据驱动的工具,很多公司把自己的应用来做一次AB实验作为数据驱动的试金石。 数据 ⇒ 洞察 阅读全文
由字节跳动数据湖团队贡献的 RFC-29 Bucket Index 在近期合入 Hudi 主分支,本文详细介绍 Hudi Bucket Index 产生的背景与实践经验。字节跳动数据湖团队持续招人中,团队支撑字节所有业务线的数仓,打造业界领先的 EB 级数据湖。文末了解详情 文 | 字节跳动数据平台 阅读全文