摘要: SparkSQL是Spark生态系统中非常重要的组件。面向企业级服务时,SparkSQL存在易用性较差的问题,导致难满足日常的业务开发需求。本文将详细解读,如何通过构建SparkSQL服务器实现使用效率提升和使用门槛降低。 前言 Spark 组件由于其较好的容错与故障恢复机制,在企业的长时作业中使用 阅读全文
posted @ 2022-05-11 16:49 字节跳动数据平台 阅读(540) 评论(0) 推荐(1)
摘要: - 文末立即下载白皮书原文 - 近期,《火山引擎A/B测试总体经济影响白皮书》正式发布。这份白皮书由市场研究公司Forrester调研撰写,揭示了A/B测试对于企业营收增长、运营成本、生产力优化等方面的重要影响。基于对多家企业调研,Forrester发现企业营收增长与其洞察力高度相关,领先企业的营收 阅读全文
posted @ 2022-05-10 16:07 字节跳动数据平台 阅读(330) 评论(0) 推荐(0)
摘要: 作为数据目录产品,Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和理解数的业务场景,并服务于数据开发和数据治理的产品体系。本文介绍了字节跳动 Data Catalog 系统的构建和迭代过程,将分为上、下篇发布。上篇主要围绕 Data Catalog 阅读全文
posted @ 2022-04-25 11:30 字节跳动数据平台 阅读(1201) 评论(0) 推荐(0)
摘要: 基于Feature Flag的下一代开发模式 面向快速迭代,如何降低上线风险?字节跳动 DataTester 团队找到风险与迭代的平衡点——渐进式发布。 阅读全文
posted @ 2022-04-20 14:10 字节跳动数据平台 阅读(923) 评论(0) 推荐(0)
摘要: 字节跳动 A/B Tester 团队将 A/B test 实验方法应用在广告营销领域,并首先在西瓜视频成功实践,用科学实验衡量决策收益,让广告营销从创意玄学走向数据科学。 文 | 字节跳动数据平台 A/B Tester 团队 我有一半的广告费都被浪费了! “我有一半的广告费都被浪费了,但就是不知道是 阅读全文
posted @ 2022-04-18 11:48 字节跳动数据平台 阅读(2033) 评论(0) 推荐(0)
摘要: 字节跳动基于 Apache Hudi 的多流拼接实践方案 字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 该方案在存储层提供对多流数据的关联能力, 阅读全文
posted @ 2022-03-30 14:15 字节跳动数据平台 阅读(1207) 评论(0) 推荐(0)
摘要: 字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化 背景 字节跳动开发套件数据集成团队(DTS ,Data Transmission Service)在字节跳动内基于 Flink 实现了流批一体的数据集成服务。其中一个典型场景是 Kafka/ByteMQ/RocketMQ → HDFS/Hive 。Kafka/ByteMQ/RocketMQ → HD 阅读全文
posted @ 2022-03-21 14:03 字节跳动数据平台 阅读(1257) 评论(1) 推荐(1)
摘要: 揭秘字节跳动云原生Spark History 服务 UIService 本文是字节跳动数据平台数据引擎SparkSQL团队针对 Spark History Server (SHS) 的优化实践分享。 文 | 字节跳动数据平台—数据引擎—SparkSQL团队 在字节跳动内部,我们实现了一套全新的云原生 Spark History 服务—— UIService,相比开源的 阅读全文
posted @ 2022-03-14 14:18 字节跳动数据平台 阅读(822) 评论(0) 推荐(0)
摘要: 为什么在数据驱动的路上,AB 实验值得信赖? 在线AB实验成为当今互联网公司中必不可少的数据驱动的工具,很多公司把自己的应用来做一次AB实验作为数据驱动的试金石。 文 | 松宝 来自 字节跳动数据平台团队增长平台 在线AB实验成为当今互联网公司中必不可少的数据驱动的工具,很多公司把自己的应用来做一次AB实验作为数据驱动的试金石。 数据 ⇒ 洞察 阅读全文
posted @ 2022-03-03 15:56 字节跳动数据平台 阅读(1014) 评论(0) 推荐(0)
摘要: Hudi Bucket Index 在字节跳动的设计与实践 由字节跳动数据湖团队贡献的 RFC-29 Bucket Index 在近期合入 Hudi 主分支,本文详细介绍 Hudi Bucket Index 产生的背景与实践经验。字节跳动数据湖团队持续招人中,团队支撑字节所有业务线的数仓,打造业界领先的 EB 级数据湖。文末了解详情 文 | 字节跳动数据平台 阅读全文
posted @ 2022-02-28 13:47 字节跳动数据平台 阅读(925) 评论(0) 推荐(0)