本文将介绍在DolphinScheduler中使用ProcessBuilder执行Shell命令的方法。默认通过BashShellInterceptorBuilder封装Shell脚本并生成执行命令,支持普通模式和sudo模式运行。同时,结合Spring Boot应用示例,展示了如何配置工作目录、合 ...
1. 数据权限治理服务 1.1. 大部分用于提取洞察的数据都是直接或间接地从客户交互中收集的,所以如果数据集包含客户的详细信息,特别是PII(如姓名、地址、社保号等),则企业需要确保数据的使用符合用户的数据偏好 1.2. 数据权限法规越来越多 1.3. 收集数据的权限 1.3.1. 对收集个人数据 ...
1. 数据整理服务 1.1. 数据整理是一个迭代的过程,涉及处理错误值、异常值、缺失值、估算值、数据不平衡和数据编码 1.1.1. 包括结构化、清洗、丰富和验证数据 1.1.2. 流程中的每一步都隐含了可能“重新整理”数据的新方法,目的是整理出最健壮的数据以提取洞察 1.2. 痛点 1.2.1. 数 ...
1. 数据湖管理服务 1.1. 数据聚合在数据湖中,数据湖已经成为聚合PB级数据的中央数据存储库,这些数据包括结构化数据、半结构化数据和非结构化数据 1.2. 痛点 1.2.1. 原始的数据生命周期任务没有自动化的API,需要工程专家来实现可重复性和回滚、提供数据服务层等 1.2.2. 需要应用程序 ...
在昨日举办的2025亚马逊云科技合作伙伴峰会圆桌论坛上,白鲸开源创始人兼CEO郭炜作为嘉宾,与亚马逊云科技及其他行业领袖共同探讨了“AI-Ready的数据架构:ISV如何构建面向生成式AI的强大数据基座”这一重要话题。此次论坛由亚马逊云科技大中华区解决方案架构师高级经理Dickson Yue主持,吸 ...
1. 点击流跟踪服务 1.1. 在构建洞察的过程中,一项越来越重要的工作是收集、分析和聚合行为数据,即点击流数据 1.2. 点击流是代表用户在应用程序或网站中操作的事件序列,包括点击、浏览和相关的上下文,比如页面加载时间、访问者使用的浏览器或设备等 1.3. 点击流数据对于客户流量分析、营销活动管理 ...
近日,深圳计算科学研究院与北京白鲸开源科技有限公司联合宣布,双方已完成产品兼容互认证。此次认证涉及深圳计算科学研究院自主研发的崖山数据库管理系统YashanDB V23和北京白鲸开源科技有限公司的核心产品WhaleStudio V2.6。经过严格的测试与验证,双方产品在兼容性、系统稳定性等方面表现优 ...
本文整系统梳理了在IDEA中搭建Apache DolphinScheduler本地调试环境的通用流程,包括环境准备、远吗配置、服务启动等核心步骤,供大家参考。 1、基础组件准备 1、JDK : v1.8.x (当前暂不支持 jdk 11) 2、Maven : v3.5+ 3、v18.19.1+,安装 ...
DPDI(Dispatch PDI)kettle调度管理平台 --介入前后的对比剖析 引言 在数据处理领域,Kettle(Pentaho Data Integration)作为一款广受欢迎的开源ETL工具,以其强大的数据处理能力和灵活性赢得了众多用户的青睐。然而,Kettle在任务调度和监控方面的功 ...
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 ...
1. 基本信息 DAMA数据管理知识体系指南(原书第2版) 数据管理协会 (DAMA国际) 著 ; DAMA中国分会翻译组 译 机械工业出版社,2020年06月出版 1.1. 读薄率 书籍总字数769千字,笔记总字数199515字。 读薄率199515÷769000≈25.94% 1.2. 读厚方向 ...
《数据资产管理白皮书》下载地址: https://www.dtstack.com/resources/1073/?src=bbs 《行业指标体系白皮书》下载地址: https://www.dtstack.com/resources/1057/?src=bbs 《数据治理行业实践白皮书》下载地址: h ...
本文将从在离线混部中的离线任务的角度,讲述离线任务是如何进行容器化、平台上的离线任务如何平滑地提交到混部集群、离线任务在混部集群中如何调度的完整实现以及过程中的问题解决。 ...
数字浪潮下的金融突围战 在国家"十四五"数字经济发展规划与金融科技发展纲要的推动下,某国有大行地区性分行正面临数字化转型的关键战役。随着每日数据处理任务激增至近万量级,原有自研调度系统已难以支撑业务扩张需求。本文将深度解析该行如何通过国产信创调度平台实现技术突围。 一、传统架构之困:数字金融转型的三 ...
各位热爱 Apache DolphinScheduler 的小伙伴们,社区3月报来啦!来查看上个月项目的进展吧! 月度Merge Star 感谢以下小伙伴上个月为 Apache DolphinScheduler 所做的精彩贡献(排名不分先后): “@ruanwenjun,@yingh0ng,@MYs ...
1. 活动 1.1. 数据管理成熟度评估需要计划 1.2. 确保实际可行的结果,应在计划内留出时间准备材料和评估结果,评估应在规定的短时间内进行 1.3. 目的是揭露当前的优势和改进的机会,而不是解决问题 1.4. 评估是通过向业务、数据管理和信息技术参与者征求意见来进行的,目的是在证据的支持下就当 ...
在广大社区成员的积极参与下,Apache DolphinScheduler社区答疑Star第一期评选活动圆满落幕!本次活动旨在表彰那些长期为社区用户提供专业解答、积极推动技术交流的社群管理员。经过社区成员的公开票选,在25个社区群中共有4位表现突出的管理员脱颖而出(因票数并列第三名共同获评)。让我们 ...
程序员最怕啥?不是需求改八遍,也不是半夜报警电话,而是数据库突然卡成PPT!尤其是当单表数据冲到几千万行,查询慢得像老牛拉车,这时候团队第一反应往往是:“赶紧分库分表!” 但兄弟,分库分表可不是什么温柔小姐姐,它更像是个浑身带刺的仙人掌——你以为抱上就能解决问题,结果可能扎得你嗷嗷叫。今天咱就聊点实 ...
1. 成熟度模型 1.1. 能力成熟度评估(Capability Maturity Assessment, CMA)是一种基于能力成熟度模型(Capability Maturity Model, CMM)框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程 1.1.1. CMA概念源于美 ...
近日,中关村智联软件服务业质量创新联盟(简称“智联联盟”)发布了《关于公布第二批2024年度软件研发优秀案例获奖名单的通知》。此次评选旨在进一步推动软件产业高质量发展和信息技术应用创新,加强业内先进经验交流,推广软件优秀实践。 通知附件中详细列出了第二批2024年度软件研发优秀案例获奖名单,其中,白 ...