大数据 - 第5页 - 网站分类

Community Over Code Asia 2025DataOps专题：SeaTunnel社区出品并将带来多个分享！

本次 CommunityOverCode Asia 2025 的 DataOps 专题，将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践，现在就一起来看看吧专题介绍本专题聚焦 Apache 生态系统中最具创新性和最前沿的项目。该专题汇聚了来自 Apache DolphinSch ...

读红蓝攻防：技术与策略35读后总结与感想兼导读

1. 基本信息红蓝攻防：技术与策略 Cybersecurity—Attack and Defense Strategies, Third Edition 埃达尔·奥兹卡（阿联酋）著； [美] 尤里·迪奥赫内斯（YuriDiogenes）机械工业出版社,2023年01月出版 1.1. 读薄 ...

读商战数据挖掘：你需要了解的数据科学与分析思维02数据挖掘

1. 数据挖掘 1.1. 数据挖掘的流程可以分解为几个通俗易懂的环节 1.1.1. 有些环节涉及信息技术的应用，如数据中模式的自动发现和评估 1.1.2. 有些则主要依赖数据分析师的创意、常识和商业知识 1.2. 理解数据挖掘的整个过程，有助于组织数据挖掘项目，使它们更接近系统性的分析，而不是凭借运 ...

读商战数据挖掘：你需要了解的数据科学与分析思维01数据分析式思维

1. 数据分析式思维 1.1. 在过去的十五年中，各企业在商业基础设施上大量投入，因此具备了更好的数据收集能力 1.2. 几乎每个商业环节都可以收集数据 1.2.1. 运营管理、生产制造、供应链管理、用户行为、市场营销和工作流管理等环节 1.3. “数据科学”所特指的领域：从丰富的数据中获取有用的信 ...

Flink-JAVA开发.01-搭建简单的开发环境

Flink算得上是大数据领域比较优秀的一个工具。它已经被收归于阿帕奇基金会之下。本文简介适用于开发的环境，不面向生产。一、Flink简介注：以下内容由edge的Copilot生成，本人稍微整理。 Flink 的起源与发展 Apache Flink 起源于 2009 年德国柏林工业大学的 ...

HDFS目录配额（quota）不足导致写文件失败

本文分享自天翼云开发者社区《HDFS目录配额（quota）不足导致写文件失败》，作者：5****m 问题背景与现象给某目录设置quota后，往目录中写文件失败，出现如下问题“The DiskSpace quota of /tmp/tquota2 is exceeded”。 [omm@189-39- ...

HBase Sync功能导致HBase入库性能下降

本文分享自天翼云开发者社区《HBase Sync功能导致HBase入库性能下降》，作者：5****m 问题背景与现象 HBase入库慢，regionserver日志中大量打印slow sync。原因分析 1.对比正常写入时间段监控，检查HBase服务整体CPU、内存以及NameNode RPC在异 ...

《数据资产管理核心技术与应用》读书笔记- 第六章-数据监控与告警（一）

《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书，全书共分10章，第1章主要让读者认识数据资产，了解数据资产相关的基础概念，以及数据资产的发展情况。第2～8章主要介绍大数据时代数据资产管理所涉及的核心技术，内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 ...

为什么 IoTDB 选择 Java？权衡之后的最优解

从 16 年开始参与时序数据库 IoTDB 的研发，时不时的会被问到，你们为什么用 Java 写数据库？Java 能用来写数据库吗？最开始我会讲，“在 IoTDB 起步的 2011 年，几乎所有知名系统、数据库，都采用 Java 进行开发，像 Hadoop、Hbase、Spark（基于 JVM 的 ...

一文吃透 SeaTunnel 线程共享机制与任务执行模型设计优化

Apache SeaTunnel Zeta 引擎是社区独立设计的大数据集成和同步专用引擎，本文聚焦于 Zeta 引擎中 TaskExecutionService 和任务调度模型的优化设计，涵盖 TaskGroup 的通信方式、call() 驱动模型，以及静态标记与动态线程共享两种线程资源优化策略，深 ...

DolphinScheduler 调度变慢？试试这些数据库性能优化策略

问题背景 DolphinScheduler 1.3.9版本查询任务实例列表等接口时，有时会出现响应慢的情况，超过20秒才返回结果。问题诊断（1）mysql开启慢日志 /etc/mysql.cnf添加如下配置参数 slow_query_log = ON slow_query_log_file = ...

零代码打造专业级工业数字孪生

火电行业作为传统能源的支柱行业，在保障电力供应的同时，也面临着多重结构性挑战。某火力发电厂设备老化严重，煤耗居高不下，且因为各种历史遗留问题导致系统兼容性差，数据孤岛现象严重，故障响应滞后。易知微依托数字孪生仿真渲染引擎EasyTwin建设了数字孪生未来工厂，一比一逼真还原火电厂区整体环境、核心建筑 ...

构建多维打标签算法

本文分享自天翼云开发者社区《构建多维打标签算法》，作者：石泽涛针对各类主题，通过对用户DPI访问数据深度解析，体现数据价值，丰富云产品形态与应用范围；建立行业的标签，能够对用户访问各类APP和网站的行为和内容有深入细致的刻画，为主题运营工作提供必要的数据支撑。在获客成本越来越高的当下，围绕用户的价 ...

在 AWS 上重构数据中台，这家出海企业选择了数栈

2024年，袋鼠云接到了一个不小的挑战。一家货币交易所的技术负责人在通话里直接说：“我们现在业务都跑在 AWS（亚马逊云平台）上了，你们的产品（数栈大数据平台）能不能不改代码直接跑在 AWS 上？最好别重学。能跑，还得跑得快。” 出海浪潮下，这样的需求并不稀奇。真正能在 AWS 上做到“稳定、 ...

基于运营商数据的用户关系模型建立示例

本文分享自天翼云开发者社区《基于运营商数据的用户关系模型建立示例》，作者：石泽涛从社交的角度来看，一种典型的用户关系网络即交往圈。一个用户的交往圈定义为“与用户在一段时间内存在双向联系的所有个体”。根据不同社会群体性质，交往圈又可以分为家庭圈、工作圈、密友圈等。基于运营商数据，可识别的用户之间的关 ...

客户案例 | 某大型综合性券商借助白鲸开源产品打造全链路智能调度与数据集成平台

在数字化转型加速的今天，金融行业正面临前所未有的数据挑战：数据量指数级增长、任务调度日益复杂、数据源类型多样化、处理链路不断延长。某证券公司，作为国内领先的综合性券商，面向内部高强度的 IT 运维与业务流程自动化需求，构建了覆盖调度控制与数据集成的双引擎体系。借助白鲸开源推出的 WhaleSch ...

DSIP-91提案解读：简化工作流调试和发布的方案，等你来探讨！

在 Apache DolphinScheduler 社区中，最近有人提出了一个优化提案非常值得大家关注。在 DSIP-91 提案中，这位开发者聚焦于优化当前工作流调试和上线发布流程，解决调试不便、发布步骤繁琐、实例混乱等痛点，提出的优化方案引入“草稿”模式，使工作流可在不上线的状态下进行调试；同时支 ...

SQL Server CDC 机制全解：如何用 SeaTunnel 构建高效实时数据同步方案

在构建 AI-Ready 企业级数据集成方案中，SQL Server 的 CDC（Change Data Capture）机制为 Apache SeaTunnel 提供了稳定的变更数据捕获能力，适用于构建实时数据管道与增量同步任务。以下是对其工作机制、实现原理、应用模式的系统介绍。 CDC 是什么？ ...

传统数据仓库正在被 Agentic AI 吞噬？Agentic Data Stack 初探

作者 | 郭炜白鲸开源 CEO，Apache 基金会成员摘要：从技术架构的角度看，我认为这一次的AI浪潮将深刻影响整个软件生态。DSS 系统的设计是以人作为最终消费者的决策支持逻辑为中心，然而，随着 Agentic AI 时代来临，最终的“消费者”更可能是 agent，对数据仓库和复杂 ETL ...

vivo Pulsar 万亿级消息处理实践(2)-从0到1建设 Pulsar 指标监控链路

本文是《vivo Pulsar万亿级消息处理实践》系列文章第2篇，Pulsar支持上报分区粒度指标，Kafka则没有分区粒度的指标，所以Pulsar的指标量级要远大于Kafka。在Pulsar平台建设初期，提供一个稳定、低时延的监控链路尤为重要。 ...