摘要: 揭秘字节跳动云原生Spark History 服务 UIService 本文是字节跳动数据平台数据引擎SparkSQL团队针对 Spark History Server (SHS) 的优化实践分享。 文 | 字节跳动数据平台—数据引擎—SparkSQL团队 在字节跳动内部,我们实现了一套全新的云原生 Spark History 服务—— UIService,相比开源的 阅读全文
posted @ 2022-03-14 14:18 字节跳动数据平台 阅读(804) 评论(0) 推荐(0)
摘要: 为什么在数据驱动的路上,AB 实验值得信赖? 在线AB实验成为当今互联网公司中必不可少的数据驱动的工具,很多公司把自己的应用来做一次AB实验作为数据驱动的试金石。 文 | 松宝 来自 字节跳动数据平台团队增长平台 在线AB实验成为当今互联网公司中必不可少的数据驱动的工具,很多公司把自己的应用来做一次AB实验作为数据驱动的试金石。 数据 ⇒ 洞察 阅读全文
posted @ 2022-03-03 15:56 字节跳动数据平台 阅读(1005) 评论(0) 推荐(0)
摘要: Hudi Bucket Index 在字节跳动的设计与实践 由字节跳动数据湖团队贡献的 RFC-29 Bucket Index 在近期合入 Hudi 主分支,本文详细介绍 Hudi Bucket Index 产生的背景与实践经验。字节跳动数据湖团队持续招人中,团队支撑字节所有业务线的数仓,打造业界领先的 EB 级数据湖。文末了解详情 文 | 字节跳动数据平台 阅读全文
posted @ 2022-02-28 13:47 字节跳动数据平台 阅读(911) 评论(0) 推荐(0)
摘要: 来看看字节跳动内部的数据血缘用例与设计 数据血缘描述了数据的来源和去向,以及数据在多个处理过程中的转换。数据血缘是组织内使数据发挥价值的重要基础能力。本文从字节的数据链路概况开始,介绍了数据血缘在字节的应用场景,总体设计,数据模型以及衡量指标。 文 | 罗小亮、拾捌、大滨来自字节跳动数据平台开发套件团队 字节跳动数据链路介绍 为了明确问题 阅读全文
posted @ 2022-02-24 10:49 字节跳动数据平台 阅读(2040) 评论(0) 推荐(0)
摘要: 看SparkSql如何支撑企业数仓 企业级数仓架构设计与选型的时候需要从开发的便利性、生态、解耦程度、性能、 安全这几个纬度思考。本文作者:惊帆 来自于数据平台 EMR 团队 前言 Apache Hive 经过多年的发展,目前基本已经成了业界构建超大规模数据仓库的事实标准和数据处理工具,Hive 已经不单单是一个技术组件,而是一种设计 阅读全文
posted @ 2022-02-21 12:21 字节跳动数据平台 阅读(1077) 评论(0) 推荐(1)
摘要: ClickHouse 在 UBA 系统中的字典编码优化实践 ClickHouse UBA 版本是字节跳动内部在开源版本基础上为火山引擎增长分析专门深度定制优化的版本。 阅读全文
posted @ 2022-02-09 16:10 字节跳动数据平台 阅读(473) 评论(0) 推荐(0)
摘要: 字节跳动数据湖技术选型的思考与落地实践 本文是字节跳动数据平台开发套件团队在 Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了字节跳动数据湖技术上的选型思考和探索实践。 阅读全文
posted @ 2022-01-24 14:49 字节跳动数据平台 阅读(2445) 评论(0) 推荐(0)
摘要: 从 ClickHouse 到 ByteHouse:实时数据分析场景下的优化实践 在打造 ByteHouse 的过程中,我们经过了多年的探索与沉淀,本文将和大家分享字节跳动过去使用 ClickHouse 的两个典型应用与优化案例。 阅读全文
posted @ 2022-01-19 16:54 字节跳动数据平台 阅读(496) 评论(0) 推荐(0)
摘要: 在字节,A/B 实验是这么做的! 主要为大家介绍了为什么要做 A/B 测试、火山引擎的 A/B 测试系统架构及字节跳动内部 A/B 测试的最佳实践。 为什么要做 A/B 测试 首先我们看一个案例。 字节跳动有一款中视频产品叫西瓜视频,最早它叫做头条视频。为了提升产品的品牌辨识度,团队想给它起个更好的名字。经过一些内部调研和头脑风暴, 阅读全文
posted @ 2022-01-17 14:24 字节跳动数据平台 阅读(7420) 评论(2) 推荐(2)
摘要: 深度介绍Flink在字节跳动数据流的实践 本文是字节跳动数据平台开发套件团队在1月9日Flink Forward Asia 2021: Flink Forward 峰会上的演讲分享,将着重分享Flink在字节跳动数据流的实践。 字节跳动数据流的业务背景 数据流处理的主要是埋点日志。埋点,也叫Event Tracking,是数据和业务之间的桥 阅读全文
posted @ 2022-01-12 13:10 字节跳动数据平台 阅读(2505) 评论(1) 推荐(4)