大数据 - 第7页 - 网站分类

Apache Paimon流式湖仓学习交流群成立

Apache Paimon是一个流式数据湖平台。致力于构建一个实时、高效的流式数据湖平台。这个项目采用了先进的流式计算技术，使企业能够实时处理和分析大量数据。Apache Paimon 的核心优势在于它对于大数据生态系统中流式处理的支持，尤其是在高并发和低延迟方面表现出色。目前业界主流数据湖存储格 ...

聊聊分布式 SQL 数据库Doris(九)

优化器的作用是优化查询语句的执行效率，它通过评估不同的执行计划并选择最优的执行计划来实现这一目标。 CBO: 一种基于成本的优化器，它通过评估不同查询执行计划的成本来选择最优的执行计划。CBO会根据数据库系统定义的统计信息以及其他因素，对不同的执行计划进行评估，并选择成本最低的执行计划。CBO的目标 ...

聊聊分布式 SQL 数据库Doris(八)

稀疏索引密集索引：文件中的每个搜索码值都对应一个索引值，就是叶子节点保存了整行. 稀疏索引：文件只为索引码的某些值建立索引项. 稀疏索引的创建过程包括将集合中的元素分段，并给每个分段中的最小元素创建索引。在搜索时，先定位到第一个大于搜索值的索引的前一个索引，然后从该索引所在的分段中从前向后顺序遍历 ...

聊聊分布式 SQL 数据库Doris(七)

LSM-Tree Doris的存储结构是类似LSM-Tree设计的，因此很多方面都是通用的，先阅读了解LSM相关的知识，再看Doris的底层存储与读取流程会清晰透彻很多，LSM基本知识如下: 原理：把各种数据先用log等形式组织在内存中(该数据结构称为MemTable，且有序)；到达一定数据量后再批 ...

UData+StarRocks在京东物流的实践

数据服务与数据分析场景是数据团队在数据应用上两个大的方向，行业内大家有可能会遇到很多问题，数据服务和数据分析系统也是无法统一，分析产生的数据结果往往是离线的，需要额外开发数据服务，无法快速转化为线上服务赋能外部系统，使得分析和服务之间难以快速形成闭环。而且在以往数据加工过程中存储往往只考虑了当时的需... ...

聊聊分布式 SQL 数据库Doris(六)

负载均衡此处的负载均衡指的是FE层的负载均衡. 当部署多个 FE 节点时，用户可以在多个 FE 之上部署负载均衡层来实现 Doris 的高可用。官方文档描述: 负载均衡。实现方式实现方式有多种，如下列举。开发者在应用层自己进行重试与负载均衡。 JDBC Connector 发现一个连接挂掉 ...

聊聊分布式 SQL 数据库Doris(五)

阅读 Doris SQL 原理解析，总结下Doris中SQL解析流程：词法识别：解析原始SQL文本，拆分token 语法识别：将token转换成AST 单机逻辑查询计划：将AST经过一系列的优化（比如，谓词下推等）成查询计划，提高执行性能与效率。分布式逻辑查询计划：根据分布式环境（数据分布信息、 ...

时区的坑：数据时间在不同数据库中差8小时、13小时、14小时是怎么回事

为什么会同一条数据，会有小时差异恭喜你，十有八九，就是时区的问题：首先要明确的是，我们中国的标准时区是东八区，就是世界协调时间(UTC)加上八个小时，也就是UTC+8。格林尼治标准时间最坑的是美国时间，因为美国实行的是夏令时，也就是说美国是有两个时区在一天内来回切换，有几个月是西六区，有几个 ...

大宗商品贸易集团数据治理实践，夯实数字基座 | 数字化标杆

某大型央企是首批全国供应链创新与应用示范企业，在“十四五”规划期内以聚焦供应链管理核心主业作为主要战略发展方向。供应链运营管理以大宗商品贸易为主，其交易往往具有交易量巨大、交易环节复杂、风险交易难识别、风险客商难管控等痛点。随着集团数字化转型不断深化，数据应用方面的需求不断扩展。但集团缺乏统一的大 ...

字节跳动AB实验经验分享：企业如何构建数据驱动的实验文化？

近日，CCF TF 举办了第 123 期分享活动，本期主题为“用户体验工程”。在活动中，来自火山引擎 AB 测试平台的专家结合字节跳动的 AB 实验经验，进行了《数据驱动的实验文化》为主题的现场分享。 ...

如何最大化客户生命周期价值？APMDR 模型在袋鼠云的落地实践

相信大家都认可一个观点：不论是 To B 还是 To C，用户是企业的核心资源，是互联网产品中最重要的价值之一。因此，深入挖掘用户价值成为现在大部分企业运营的关键。之前我们为大家介绍过如何利用 RFM 模型让企业聚焦于更有价值的用户，本文将为大家详细介绍用户生命周期模型 APMDR，以及「袋鼠云客 ...

聊聊分布式 SQL 数据库Doris(四)

FE层的架构都能在网上找到说明. 但BE层的架构模式、一致性保障、与FE层之间的请求逻辑，数据传输逻辑等，我个人暂时没有找到相应的博客说明这些的。当然这些是我个人在学习与使用Doris过程中，对内部交互逻辑与实现感兴趣才有这些疑问. 还好现在有GPT这类大模型，有了疑问，只要问题描述得当，大多可以解 ...

跳数索引

1、minmax 下面是为url建立最大最小值的跳数索引 ALTER TABLE hits_UserID_URL ADD INDEX url_skipping_index URL TYPE minmax GRANULARITY 4; ALTER TABLE hits_UserID_URL MATER ...

聊聊分布式 SQL 数据库Doris(三)

在 Doris 的存储引擎规则: 表的数据是以分区为单位存储的，不指定分区创建时，默认就一个分区. 用户数据首先被划分成若干个分区（Partition），划分的规则通常是按照用户指定的分区列进行范围划分，比如按时间划分。在每个分区内，数据被进一步的按照Hash的方式分桶，分桶的规则是要找用户指定的 ...

利用 Kubernetes 降本增效？EasyMR 基于 Kubernetes 部署的探索实践

Kubernetes 是用于编排容器化应用程序的云原生系统。最初由 Google 创建，如今由 Cloud Native Computing Foundation（CNCF）维护更新。 Kubernetes 是市面上最受欢迎的集群管理解决方案之一。它自动化容器化应用程序的部署、扩展和管理，允许管理和 ...

火山引擎DataTester上线「集成工作台」功能，助力企业打造专属AB平台

火山引擎DataTester上线的「集成工作台」功能，能够将DataTester的能力与企业自身的系统进行打通，减少系统之间的多次跳转。帮助企业打造专属AB平台，满足企业的个性化诉求，大幅降低企业服务的应用成本并提升用户使用体验。该功能可以通过完善的引导，进行一站式的定制、发布、嵌出，帮助企业打造专... ...

火山引擎 DataLeap 计算治理自动化解决方案实践和思考

本文旨在探讨火山引擎 DataLeap 在处理计算治理过程中所面临的问题及其解决方案，并展示这些解决方案带来的实际收益。主要内容包括：探讨面临的痛点和挑战、提供自动化的解决方案、分析实践效果和收益、提出结论和未来展望。 ...

如何构建新一代实时湖仓？袋鼠云基于数据湖的探索升级之路

在之前的实时湖仓系列文章中，我们已经介绍了实时湖仓对于当前企业数字化转型的重要性，实时湖仓的功能架构设计，以及实时计算和数据湖结合的应用场景。在本篇文章中，将介绍袋鼠云数栈在构建实时湖仓系统上的探索与落地实践，及未来规划。数栈为什么选择实时湖仓数栈作为一个数据开发平台，在未引入实时湖仓之前提供 ...

clickhouse节点重做（节点替换）

测试验证环境： docker容器化部署的4节点2分片和2副本（centos7+clickhouse22.1.3） 172.17.0.6 clickhouse01172.17.0.7 clickhouse02172.17.0.8 clickhouse03 172.17.0.9 clickhouse04 ...

基于Docker Desktop搭建Kafka集群并使用Java编程开发

一、引言前段时间因课业要求使用Docker Desktop 部署Kafka集群并编写生产者消费者程序，折磨了我好几天，在查找大量资料后终于是把整个集群搭建完成了。现在我想要分享其中搭建的历程，希望能为大家解决问题。二、Docker集群构建安装环境: Windows 10 2.1 启用或关闭wi ...