刷新
Apache Paimon流式湖仓学习交流群成立

博主头像 Apache Paimon是一个流式数据湖平台。致力于构建一个实时、高效的流式数据湖平台。这个项目采用了先进的流式计算技术,使企业能够实时处理和分析大量数据。Apache Paimon 的核心优势在于它对于大数据生态系统中流式处理的支持,尤其是在高并发和低延迟方面表现出色。 目前业界主流数据湖存储格 ...

聊聊分布式 SQL 数据库Doris(九)

博主头像 优化器的作用是优化查询语句的执行效率,它通过评估不同的执行计划并选择最优的执行计划来实现这一目标。 CBO: 一种基于成本的优化器,它通过评估不同查询执行计划的成本来选择最优的执行计划。CBO会根据数据库系统定义的统计信息以及其他因素,对不同的执行计划进行评估,并选择成本最低的执行计划。CBO的目标 ...

聊聊分布式 SQL 数据库Doris(八)

博主头像 稀疏索引 密集索引:文件中的每个搜索码值都对应一个索引值,就是叶子节点保存了整行. 稀疏索引:文件只为索引码的某些值建立索引项. 稀疏索引的创建过程包括将集合中的元素分段,并给每个分段中的最小元素创建索引。在搜索时,先定位到第一个大于搜索值的索引的前一个索引,然后从该索引所在的分段中从前向后顺序遍历 ...

聊聊分布式 SQL 数据库Doris(七)

博主头像 LSM-Tree Doris的存储结构是类似LSM-Tree设计的,因此很多方面都是通用的,先阅读了解LSM相关的知识,再看Doris的底层存储与读取流程会清晰透彻很多,LSM基本知识如下: 原理:把各种数据先用log等形式组织在内存中(该数据结构称为MemTable,且有序);到达一定数据量后再批 ...

UData+StarRocks在京东物流的实践

博主头像 数据服务与数据分析场景是数据团队在数据应用上两个大的方向,行业内大家有可能会遇到很多问题,数据服务和数据分析系统也是无法统一,分析产生的数据结果往往是离线的,需要额外开发数据服务,无法快速转化为线上服务赋能外部系统,使得分析和服务之间难以快速形成闭环。而且在以往数据加工过程中存储往往只考虑了当时的需... ...

聊聊分布式 SQL 数据库Doris(六)

博主头像 负载均衡 此处的负载均衡指的是FE层的负载均衡. 当部署多个 FE 节点时,用户可以在多个 FE 之上部署负载均衡层来实现 Doris 的高可用。官方文档描述: 负载均衡 。 实现方式 实现方式有多种,如下列举。 开发者在应用层自己进行重试与负载均衡。 JDBC Connector 发现一个连接挂掉 ...

聊聊分布式 SQL 数据库Doris(五)

博主头像 阅读 Doris SQL 原理解析,总结下Doris中SQL解析流程: 词法识别:解析原始SQL文本,拆分token 语法识别:将token转换成AST 单机逻辑查询计划:将AST经过一系列的优化(比如,谓词下推等)成查询计划,提高执行性能与效率。 分布式逻辑查询计划:根据分布式环境(数据分布信息、 ...

时区的坑:数据时间在不同数据库中差8小时、13小时、14小时是怎么回事

为什么会同一条数据,会有小时差异 恭喜你,十有八九,就是时区的问题: 首先要明确的是,我们中国的标准时区是东八区,就是世界协调时间(UTC)加上八个小时,也就是UTC+8。 格林尼治标准时间 最坑的是美国时间,因为美国实行的是夏令时,也就是说美国是有两个时区在一天内来回切换,有几个月是西六区,有几个 ...

大宗商品贸易集团数据治理实践,夯实数字基座 | 数字化标杆

博主头像 某大型央企是首批全国供应链创新与应用示范企业,在“十四五”规划期内以聚焦供应链管理核心主业作为主要战略发展方向。供应链运营管理以大宗商品贸易为主,其交易往往具有交易量巨大、交易环节复杂、风险交易难识别、风险客商难管控等痛点。 随着集团数字化转型不断深化,数据应用方面的需求不断扩展。但集团缺乏统一的大 ...

如何最大化客户生命周期价值?APMDR 模型在袋鼠云的落地实践

博主头像 相信大家都认可一个观点:不论是 To B 还是 To C,用户是企业的核心资源,是互联网产品中最重要的价值之一。因此,深入挖掘用户价值成为现在大部分企业运营的关键。 之前我们为大家介绍过如何利用 RFM 模型让企业聚焦于更有价值的用户,本文将为大家详细介绍用户生命周期模型 APMDR,以及「袋鼠云客 ...

聊聊分布式 SQL 数据库Doris(四)

博主头像 FE层的架构都能在网上找到说明. 但BE层的架构模式、一致性保障、与FE层之间的请求逻辑,数据传输逻辑等,我个人暂时没有找到相应的博客说明这些的。当然这些是我个人在学习与使用Doris过程中,对内部交互逻辑与实现感兴趣才有这些疑问. 还好现在有GPT这类大模型,有了疑问,只要问题描述得当,大多可以解 ...

跳数索引

1、minmax 下面是为url建立最大最小值的跳数索引 ALTER TABLE hits_UserID_URL ADD INDEX url_skipping_index URL TYPE minmax GRANULARITY 4; ALTER TABLE hits_UserID_URL MATER ...

聊聊分布式 SQL 数据库Doris(三)

博主头像 在 Doris 的存储引擎规则: 表的数据是以分区为单位存储的,不指定分区创建时,默认就一个分区. 用户数据首先被划分成若干个分区(Partition),划分的规则通常是按照用户指定的分区列进行范围划分,比如按时间划分。 在每个分区内,数据被进一步的按照Hash的方式分桶,分桶的规则是要找用户指定的 ...

火山引擎DataTester上线「集成工作台」功能,助力企业打造专属AB平台

博主头像 火山引擎DataTester上线的「集成工作台」功能,能够将DataTester的能力与企业自身的系统进行打通,减少系统之间的多次跳转。帮助企业打造专属AB平台,满足企业的个性化诉求,大幅降低企业服务的应用成本并提升用户使用体验。该功能可以通过完善的引导,进行一站式的定制、发布、嵌出,帮助企业打造专... ...

如何构建新一代实时湖仓?袋鼠云基于数据湖的探索升级之路

博主头像 在之前的实时湖仓系列文章中,我们已经介绍了实时湖仓对于当前企业数字化转型的重要性,实时湖仓的功能架构设计,以及实时计算和数据湖结合的应用场景。 在本篇文章中,将介绍袋鼠云数栈在构建实时湖仓系统上的探索与落地实践,及未来规划。 数栈为什么选择实时湖仓 数栈作为一个数据开发平台,在未引入实时湖仓之前提供 ...

基于Docker Desktop搭建Kafka集群并使用Java编程开发

博主头像 一、引言 前段时间因课业要求使用Docker Desktop 部署Kafka集群并编写生产者消费者程序,折磨了我好几天,在查找大量资料后终于是把整个集群搭建完成了。现在我想要分享其中搭建的历程,希望能为大家解决问题。 二、Docker集群构建 安装环境: Windows 10 2.1 启用或关闭wi ...

<1···678···20>