刷新
5分钟掌握!DolphinScheduler时间参数动态配置秘籍

博主头像 在 DolphinScheduler 中,调度时对时间参数的使用非常重要,尤其是当你在数据处理、ETL 任务或其他需要依赖时间范围的任务场景中。DolphinScheduler 允许通过多种方式灵活地配置时间参数,以适应不同的任务调度需求。以下是时间参数在 DolphinScheduler 调度中的 ...

读DAMA数据管理知识体系指南44大数据和数据科学活动

博主头像 1. 定义大数据战略和业务需求 1.1. 组织的大数据战略需要与其整体业务战略和业务需求保持一致并提供支持,并成为其数据战略的一部分 1.2. 一个组织的大数据战略将推动其明确大数据能力路线图的范围和时间 1.3. 组织试图解决什么问题,需要分析什么 1.4. 要使用或获取的数据源是什么 1.4.1 ...

读DAMA数据管理知识体系指南43大数据和数据科学概念

博主头像 1. 业务驱动 1.1. 期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大业务驱动力 1.2. 大数据可以通过对更多、更大的数据集进行探索来激发创新,这些数据可用来定义预判客户需求的预测模型,并实现产品和服务的个性化展示 1.3. 数据科学可以提升运营水平 1.4 ...

Graph4Stream:基于图的流计算加速

博主头像 通过结合图计算与流计算,蚂蚁图计算开源的GeaFlow引擎解决了传统流计算引擎在大数据关联关系计算中的性能瓶颈,尤其在多跳场景下性能显著优于Flink,对于实时知识图谱的构建,提供了基础技术底座。 ...

2025年,怎么靠技术传播自我“破圈”?

博主头像 亲爱的社区小伙伴们,Apache DolphinScheduler 2025年 Meetup 讲师&议题开始征集。提升自我价值,实现自我“破圈”,这里是你最好的舞台,快来一起开启你的技术传播之旅吧! 如果你热爱Apache DolphinScheduler,对大数据调度有着深厚的兴趣,并且愿意将你关 ...

读DAMA数据管理知识体系指南37元数据管理概念(下)

博主头像 1. 元数据来源 1.1. 元数据的来源各异 1.1.1. 大多数操作元数据是在处理数据时生成的 1.1.2. 最好是有意识地重新定义而不是简单地接受现有定义 1.2. 管理数据库所需的大部分技术元数据和使用数据所需的业务元数据,可以作为项目工作的一部分进行收集和开发 1.2.1. 应记录和整理讨论 ...

读DAMA数据管理知识体系指南36元数据管理概念(上)

博主头像 1. 业务驱动因素 1.1. 可靠且良好管理元数据有助于 1.1.1. 通过提供上下文语境和执行数据质量检查提高数据的可信度 1.1.2. 通过扩展用途增加战略信息(如主数据)的价值 1.1.3. 通过识别冗余数据和流程提高运营效率 1.1.4. 防止使用过时或不正确的数据 1.1.5. 减少数据的 ...

读DAMA数据管理知识体系指南35数据仓库和商务智能活动

博主头像 1. 活动 1.1. 理解需求 1.1.1. 构建一个数据仓库与开发一套业务系统不同 1.1.2. 业务系统的开发取决于精确的、具体的业务需求 1.1.3. 数据仓库建设则是把数据汇集在一起,再以各种不同的方式使用这些数据 1.1.4. 要考虑业务目标和业务战略,确定业务领域并框定范围 1.1.5. ...

读DAMA数据管理知识体系指南34数据仓库和商务智能概念

博主头像 1. 业务驱动因素 1.1. 主要驱动力是运营支持职能、合规需求和商务智能活动 1.2. 用数据来证明他们是合规的,因为数据仓库中包含历史数据,所以经常被用来响应这类要求 1.3. 商务智能支持一直是建设数据仓库的主要原因 2. 目标 2.1. 支持商务智能活动 2.2. 赋能商业分析和高效决策 2 ...

读DAMA数据管理知识体系指南33参考数据和主数据活动

博主头像 1. 主数据管理活动 1.1. 识别驱动因素和需求 1.1.1. 每个组织都有不同的主数据管理驱动因素和障碍,受系统的数量和类型、使用年限、支持的业务流程以及交易和分析中数据使用方式的影响 1.2. 评估和评价数据源 1.2.1. 现有应用中的数据构成了主数据管理工作的基础,理解这些数据的结构和内容 ...

深度剖析 StarRocks 读取 ORC 加密文件背后的技术

博主头像 本文介绍了StarRocks数据库如何读取ORC加密文件,包括基础概念以及具体实现方案。深入探讨了利用ORC文件的四层结构和三层索引机制,实现高效查询加密数据。希望通过本文对ORC加密文件读取功能的实现细节的剖析,让读者更加深刻理解ORC文件,同时了解StarRocks支持加解密数据分析的方案。 ...

网易邮箱DolphinScheduler迁移实战:从部署到优化,10倍效率提升的内部经验

博主头像 ——企业级调度系统平滑迁移指南,附避坑全流程! 随着互联网的飞速发展,电子邮件作为重要的信息交流工具之一,其数据处理和任务调度的需求日益增长。网易邮箱作为国内领先的电子邮件服务提供商,为了更好地应对海量数据的处理和任务调度挑战,引入了DolphinScheduler平台,并在实际应用中进行了深入的部 ...

读DAMA数据管理知识体系指南32参考数据和主数据概念(下)

博主头像 1. 主数据 1.1. 主数据是有关业务实体(如雇员、客户、产品、金融结构、资产和位置等)的数据,这些实体为业务交易和分析提供了语境信息 1.2. 实体是客观世界的对象(人、组织、地方或事物等)​ 1.3. 实体被实体、实例以数据/记录的方式表示 1.4. 主数据应该代表与关键业务实体有关的权威的、 ...

开箱即用,袋鼠云上线DeepSeek AI大模型一体机!

博主头像 “服务器繁忙,请稍后再试。”DeepSeek于2025年初爆火后,需求量剧增,算力资源被持续压榨,处于满负荷运行状态。加之因担忧数据安全与合规,大型组织纷纷将目光投向DeepSeek私有化部署。[[点此查看详情袋鼠云+DeepSeek,提供大模型私有化部署与一站式大模型运维服务]](http ...

读DAMA数据管理知识体系指南31参考数据和主数据概念(上)

博主头像 1. 业务驱动因素 1.1. 满足组织数据需求 1.1.1. 组织中的多个业务领域需要访问相同的数据集,并且他们都相信这些数据集是完整的、最新的、一致的 1.2. 管理数据质量 1.2.1. 数据的不一致、质量问题和差异均会导致决策错误或丧失机会 1.3. 管理数据集成的成本 1.3.1. 在没有主 ...

读DAMA数据管理知识体系指南30文件和内容治理

博主头像 1. 方法 1.1. 诉讼应诉手册 1.1.1. 电子取证工作一般在发生诉讼的时候进行 1.1.2. 指引应明确电子取证的目标环境,并评估当前环境和目标环境之间是否存在差距 1.1.3. 应记载电子取证活动生命周期的业务流程,明确电子取证团队的角色和职责 1.1.4. 还可以使组织识别风险并主动预防 ...

读DAMA数据管理知识体系指南29文件和内容管理活动

博主头像 1. 规划生命周期的管理 1.1. 从文件的创建或接收文件后的分发、存储、检索、归档和潜在的销毁 1.2. 规划包括开发分类/索引系统和分类法,以实现文件的存储和检索 1.3. 重要的是,生命周期规划中需要为档案建立具体的制度 1.4. 确定负责管理文件和档案的组织部门。该部门协调内部和外部的访问和 ...

<1···8910···13>