刷新
使用Flink完成流数据统计

博主头像 Flink程序构建的基本单元是stream和transformation(DataSet实质上也是stream)。stream是一个中间结果数据,transformation对数据的加工和操作,该操作以一个或多个stream为输入,计算输出一个或多个stream为结果,最后可以sink来存储数据。 ...

数据资产入表在即,企业如何把握机遇,进行数据资产管理?

博主头像 数据作为新时代重要的生产要素之一,数据资产化的相关工作正在提速。自今年10月1日起,中国资产评估协会制定的《数据资产评估指导意见》正式施行。同时,《企业数据资源相关会计处理暂行规定》近期转为正式稿,也将于明年1月1日起施行。 《暂行规定》规定:企业使用的数据资源,符合《企业会计准则第6号——无形资产 ...

直播预约丨《实时湖仓实践五讲》第四讲:实时湖仓架构与技术选型

博主头像 如今,大规模、高时效、智能化数据处理已是“刚需”,企业需要更强大的数据平台,来应对数据查询、数据处理、数据挖掘、数据展示以及多种计算模型并行的挑战,湖仓一体方案应运而生。 《实时湖仓实践五讲》是袋鼠云打造的系列直播活动,将围绕实时湖仓的建设趋势和通用问题,邀请奋战于企业数字化一线的核心产品&技术专家 ...

车企数据治理实践案例,实现数据生产、消费的闭环链路 | 数字化标杆

博主头像 随着业务飞速发展,某汽车制造企业业务系统数量、复杂度和数据量都在呈几何级数的上涨,这就对于企业IT能力和IT架构模式的要求越来越高。加之企业大力发展数字化营销、新能源车等业务,希望通过持续优化客户体验,创造可持续发展的数字化转型之路。 为更好应对数字化变革所带来的挑战,现有的竖井架构的数据体系难以满 ...

【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

博主头像 大家好,我是独孤风,从本周开始,争取每周为大家带来一个优秀的开源项目推荐。 开源项目不仅促进了技术的发展和普及,还为全球范围内的开发者和用户社区建立了一个共享知识、协作和创新的平台。站在巨人的肩膀上才能看的更远,我们平时也应该多多关注开源项目,不仅学习其丰富的知识,也要找机会为开源事业做出自己的贡献 ...

ClickHouse(16)ClickHouse日志引擎Log详细解析

博主头像 日志引擎系列 这些引擎是为了需要写入许多小数据量(少于一百万行)的表的场景而开发的。 这系列的引擎有: StripeLog Log TinyLog 共同属性 引擎: 数据存储在磁盘上。 写入时将数据追加在文件末尾。 不支持突变操作,也就是更新。 不支持索引。 这意味着 `SELECT` 在范围查询时 ...

袋鼠云产品功能更新报告08期|近百项全新功能和优化,你要的都在这里!

博主头像 欢迎来到袋鼠云08期产品功能更新报告!在瞬息万变的市场环境中,我们深知客户的需求与期待,因此,我们及时推出袋鼠云最新产品更新及优化,包括数据治理中心、Hive SQL 性能优化、新插件等,助力企业在数字世界中勇往直前。 以下为袋鼠云产品功能更新报告08期内容,更多探索,请继续阅读。 离线开发平台 新 ...

Apache Paimon流式湖仓学习交流群成立

博主头像 Apache Paimon是一个流式数据湖平台。致力于构建一个实时、高效的流式数据湖平台。这个项目采用了先进的流式计算技术,使企业能够实时处理和分析大量数据。Apache Paimon 的核心优势在于它对于大数据生态系统中流式处理的支持,尤其是在高并发和低延迟方面表现出色。 目前业界主流数据湖存储格 ...

聊聊分布式 SQL 数据库Doris(九)

博主头像 优化器的作用是优化查询语句的执行效率,它通过评估不同的执行计划并选择最优的执行计划来实现这一目标。 CBO: 一种基于成本的优化器,它通过评估不同查询执行计划的成本来选择最优的执行计划。CBO会根据数据库系统定义的统计信息以及其他因素,对不同的执行计划进行评估,并选择成本最低的执行计划。CBO的目标 ...

聊聊分布式 SQL 数据库Doris(八)

博主头像 稀疏索引 密集索引:文件中的每个搜索码值都对应一个索引值,就是叶子节点保存了整行. 稀疏索引:文件只为索引码的某些值建立索引项. 稀疏索引的创建过程包括将集合中的元素分段,并给每个分段中的最小元素创建索引。在搜索时,先定位到第一个大于搜索值的索引的前一个索引,然后从该索引所在的分段中从前向后顺序遍历 ...

聊聊分布式 SQL 数据库Doris(七)

博主头像 LSM-Tree Doris的存储结构是类似LSM-Tree设计的,因此很多方面都是通用的,先阅读了解LSM相关的知识,再看Doris的底层存储与读取流程会清晰透彻很多,LSM基本知识如下: 原理:把各种数据先用log等形式组织在内存中(该数据结构称为MemTable,且有序);到达一定数据量后再批 ...

UData+StarRocks在京东物流的实践

博主头像 数据服务与数据分析场景是数据团队在数据应用上两个大的方向,行业内大家有可能会遇到很多问题,数据服务和数据分析系统也是无法统一,分析产生的数据结果往往是离线的,需要额外开发数据服务,无法快速转化为线上服务赋能外部系统,使得分析和服务之间难以快速形成闭环。而且在以往数据加工过程中存储往往只考虑了当时的需... ...

聊聊分布式 SQL 数据库Doris(六)

博主头像 负载均衡 此处的负载均衡指的是FE层的负载均衡. 当部署多个 FE 节点时,用户可以在多个 FE 之上部署负载均衡层来实现 Doris 的高可用。官方文档描述: 负载均衡 。 实现方式 实现方式有多种,如下列举。 开发者在应用层自己进行重试与负载均衡。 JDBC Connector 发现一个连接挂掉 ...

聊聊分布式 SQL 数据库Doris(五)

博主头像 阅读 Doris SQL 原理解析,总结下Doris中SQL解析流程: 词法识别:解析原始SQL文本,拆分token 语法识别:将token转换成AST 单机逻辑查询计划:将AST经过一系列的优化(比如,谓词下推等)成查询计划,提高执行性能与效率。 分布式逻辑查询计划:根据分布式环境(数据分布信息、 ...

时区的坑:数据时间在不同数据库中差8小时、13小时、14小时是怎么回事

为什么会同一条数据,会有小时差异 恭喜你,十有八九,就是时区的问题: 首先要明确的是,我们中国的标准时区是东八区,就是世界协调时间(UTC)加上八个小时,也就是UTC+8。 格林尼治标准时间 最坑的是美国时间,因为美国实行的是夏令时,也就是说美国是有两个时区在一天内来回切换,有几个月是西六区,有几个 ...

大宗商品贸易集团数据治理实践,夯实数字基座 | 数字化标杆

博主头像 某大型央企是首批全国供应链创新与应用示范企业,在“十四五”规划期内以聚焦供应链管理核心主业作为主要战略发展方向。供应链运营管理以大宗商品贸易为主,其交易往往具有交易量巨大、交易环节复杂、风险交易难识别、风险客商难管控等痛点。 随着集团数字化转型不断深化,数据应用方面的需求不断扩展。但集团缺乏统一的大 ...

如何最大化客户生命周期价值?APMDR 模型在袋鼠云的落地实践

博主头像 相信大家都认可一个观点:不论是 To B 还是 To C,用户是企业的核心资源,是互联网产品中最重要的价值之一。因此,深入挖掘用户价值成为现在大部分企业运营的关键。 之前我们为大家介绍过如何利用 RFM 模型让企业聚焦于更有价值的用户,本文将为大家详细介绍用户生命周期模型 APMDR,以及「袋鼠云客 ...

<1···789···20>