从 16 年开始参与时序数据库 IoTDB 的研发,时不时的会被问到,你们为什么用 Java 写数据库?Java 能用来写数据库吗? 最开始我会讲,“在 IoTDB 起步的 2011 年,几乎所有知名系统、数据库,都采用 Java 进行开发,像 Hadoop、Hbase、Spark(基于 JVM 的 ...
Apache SeaTunnel Zeta 引擎是社区独立设计的大数据集成和同步专用引擎,本文聚焦于 Zeta 引擎中 TaskExecutionService 和任务调度模型的优化设计,涵盖 TaskGroup 的通信方式、call() 驱动模型,以及静态标记与动态线程共享两种线程资源优化策略,深 ...
问题背景 DolphinScheduler 1.3.9版本 查询任务实例列表等接口时,有时会出现响应慢的情况,超过20秒才返回结果。 问题诊断 (1)mysql开启慢日志 /etc/mysql.cnf添加如下配置参数 slow_query_log = ON slow_query_log_file = ...
火电行业作为传统能源的支柱行业,在保障电力供应的同时,也面临着多重结构性挑战。某火力发电厂设备老化严重,煤耗居高不下,且因为各种历史遗留问题导致系统兼容性差,数据孤岛现象严重,故障响应滞后。易知微依托数字孪生仿真渲染引擎EasyTwin建设了数字孪生未来工厂,一比一逼真还原火电厂区整体环境、核心建筑 ...
本文分享自天翼云开发者社区《构建多维打标签算法》,作者:石泽涛 针对各类主题,通过对用户DPI访问数据深度解析,体现数据价值,丰富云产品形态与应用范围;建立行业的标签,能够对用户访问各类APP和网站的行为和内容有深入细致的刻画,为主题运营工作提供必要的数据支撑。在获客成本越来越高的当下,围绕用户的价 ...
2024年,袋鼠云接到了一个不小的挑战。 一家货币交易所的技术负责人在通话里直接说:“我们现在业务都跑在 AWS(亚马逊云平台) 上了,你们的产品(数栈大数据平台)能不能不改代码直接跑在 AWS 上?最好别重学。能跑,还得跑得快。” 出海浪潮下,这样的需求并不稀奇。真正能在 AWS 上 做到“稳定、 ...
本文分享自天翼云开发者社区《基于运营商数据的用户关系模型建立示例》,作者:石泽涛 从社交的角度来看,一种典型的用户关系网络即交往圈。一个用户的交往圈定义为“与用户在一段时间内存在双向联系的所有个体”。根据不同社会群体性质,交往圈又可以分为家庭圈、工作圈、密友圈等。基于运营商数据,可识别的用户之间的关 ...
在数字化转型加速的今天,金融行业正面临前所未有的数据挑战:数据量指数级增长、任务调度日益复杂、数据源类型多样化、处理链路不断延长。某证券公司,作为国内领先的综合性券商,面向内部高强度的 IT 运维与业务流程自动化需求,构建了覆盖调度控制与数据集成的双引擎体系。 借助 白鲸开源推出的 WhaleSch ...
在 Apache DolphinScheduler 社区中,最近有人提出了一个优化提案非常值得大家关注。在 DSIP-91 提案中,这位开发者聚焦于优化当前工作流调试和上线发布流程,解决调试不便、发布步骤繁琐、实例混乱等痛点,提出的优化方案引入“草稿”模式,使工作流可在不上线的状态下进行调试;同时支 ...
在构建 AI-Ready 企业级数据集成方案中,SQL Server 的 CDC(Change Data Capture)机制为 Apache SeaTunnel 提供了稳定的变更数据捕获能力,适用于构建实时数据管道与增量同步任务。以下是对其工作机制、实现原理、应用模式的系统介绍。 CDC 是什么? ...
作者 | 郭炜 白鲸开源 CEO,Apache 基金会成员 摘要:从技术架构的角度看,我认为这一次的AI浪潮将深刻影响整个软件生态。DSS 系统的设计是以人作为最终消费者的决策支持逻辑为中心,然而,随着 Agentic AI 时代来临,最终的“消费者”更可能是 agent,对数据仓库和复杂 ETL ...
本文是《vivo Pulsar万亿级消息处理实践》系列文章第2篇,Pulsar支持上报分区粒度指标,Kafka则没有分区粒度的指标,所以Pulsar的指标量级要远大于Kafka。在Pulsar平台建设初期,提供一个稳定、低时延的监控链路尤为重要。 ...
译自Gartner 作者 | Mark Driver,Nitish Tyagi 摘要 技术创新领导者可以通过开源软件(OSS)推动创新、节省成本并提升灵活性。然而,若想真正的实现规避风险并提升业务价值,而不仅仅是炒作,优秀的管理和治理至关重要。 关键发现 很多时候我们都没有察觉到,几乎所有 IT 组 ...
问题描述 Dolphinscheduler按生产手册使用一键脚本集群部署后,控制台登录页面可以打开,但使用默认账户怎么都登录不进去,尝试在数据库中清理登录用户字段,发现数据库中并没有相关用户字段,而后使用Dolphinscheduler初始化脚本建库时发现连接数据库失败。 报错信息: Loading ...
作者:郭炜,白鲸开源 CEO,Apache 基金会成员 在全球科技产业不断重塑格局的背景下,越来越多的中国软件企业将“出海”视为新阶段的战略命题。但面对资源有限、市场多样的现实,每一家企业都必须回答一个关键问题:出海第一站,选哪里? 本文结合白鲸开源在开源商业化出海过程中的实践经验,重构全球化路径的 ...
文章以Pulsar client模块中的Producer为解析对象,通过对Producer数据发送原理进行逐层分析,以及分享参数调优实战案例,帮助读者理解与使用好Producer,并体会到Producer对消息中间件系统稳定性以及处理性能所起到的关键作用。 ...
我们很高兴地宣布 Apache SeaTunnel 2.3.11 正式发布!作为一个专注于高性能、可扩展的数据集成平台,SeaTunnel 始终致力于为开发者和数据工程团队提供更强大、更灵活的异构数据处理能力。本次 2.3.11 版本在稳定性、易用性、连接器生态、数据转换能力以及引擎层面都进行了重要 ...
Apache IoTDB 社区作为清华大学大数据产业论坛——航空航天专场的协办方,诚邀社区各位用户、开发者于 6 月 7 日参与聆听航空航天领域数字化转型的最新行业趋势与落地实践! ...
1. 基本信息 数据科学伦理:概念、技术和警世故事 Data Science Ethics:Concepts, Techniques and Cautionary Tales [比]大卫·马滕斯(David Martens) 著 中国科学技术出版社,2024年01月出版 1.1. 读薄率 书籍总字数 ...
各位热爱 Apache SeaTunnel 的小伙伴们,今年 4 月份月报更新啦!这里将记录 SeaTunnel 社区每月的重要更新,欢迎关注! 在本月的众多更新中,最令人关注的一项新特性是——TDengine 多表 Sink 功能的支持(由 @jia17 提交)。这一功能的引入,标志着 SeaTu ...