数据库选型思路:数据量支持的情况下,首选关系型数据库,如果mysql,功能丰富能解决大部分问题;如果数据量级已经超过 MySQL 极限(单表300万以上就已经很慢),可以选择es或者一些列式数据库,比如:HBase、Cassandra、ClickHouse,数据量再增长也可以考虑Spark、Hive ...
《数据资产管理白皮书》下载地址:https://www.dtstack.com/resources/1073/?src=szsm 《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057/?src=szsm 《数据治理行业实践白皮书》下载地址:ht ...
Apache DolphinScheduler 作为一款分布式易扩展的工作流调度系统,广泛应用于大数据任务编排。然而,在实际使用中,用户可能会遇到环境搭建、服务启动、工作流执行等问题。本文结合社区文档与用户实践经验,整理以下高频问题及详细解决方案,帮助用户快速定位并解决问题。 一、安装与部署问题 环 ...
为了帮助企业更有效地推进数字化转型升级,袋鼠云精心策划了一系列以“数字基建+数智应用”为核心的赋能分享活动,本系列直播共有四期,每期聚焦于不同的关键议题,深入探讨企业数字化转型中面临的挑战以及可行的应对策略。 我们期待通过这些直播活动,与业界同仁深化交流,共同探讨数字化转型中的难点与痛点,并寻找切实 ...
亲爱的社区小伙伴们,Apache DolphinScheduler 2025年 Meetup 讲师&议题开始征集。提升自我价值,实现自我“破圈”,这里是你最好的舞台,快来一起开启你的技术传播之旅吧! 如果你热爱Apache DolphinScheduler,对大数据调度有着深厚的兴趣,并且愿意将你关 ...
在数字化转型不断加速的今天,数据已成为企业最宝贵的资产,而如何高效地处理、传输和协调这些海量数据成为企业制胜的关键。大数据调度与同步正是支撑这一核心业务的两大技术支柱。本文将详细阐述大数据调度与同步的工作原理、二者之间的紧密关系以及它们对现代企业的重要性,并重点介绍商业化产品 WhaleStudio ...
Ambari是一个用于管理Hadoop集群的工具,虽然Ambari本身并不直接支持DolphinScheduler的安装,但我们可以通过自定义服务的方式将其集成到Ambari中。本文将描述如何使用Ambari安装DolphinScheduler。 1.将需要集成到Ambari的服务安装包放到该目录下 ...
写在前面 在解决Doris访问AWS上存储的Parquet文件时,曾碰到过Doris不支持Delta Encoding导致数据读取失败。于是打算整理下跟Delta Encoding相关的知识,为解决连续的整型存储、Timestamp、Date类型存储时的压缩效率问题提供参考。 数据编码指的是从一种数 ...
春节期间,IT圈内两件大事持续发酵,一件是中国大模型DeepSeek R1的开源震动全球AI界,让中国科技界扬眉吐气,廉价大模型走入千家万户;另一件是SAP被客户居然之家告上法庭,要求索赔590万开发费用和1700万软件费用,最终法院判SAP退还350万研发费用。这两件事的背后,实际上映射了一个势不 ...
Apache DolphinScheduler 非常适用于实时数据处理场景,尤其是与 Apache Flink 的集成。DolphinScheduler 提供了丰富的功能,包括任务依赖管理、动态调度、实时监控和日志管理,能够有效简化 Flink 实时任务的管理和部署。通过 DolphinSchedu ...
写在开头 点赞 + 收藏 学会 一、DeepSeek私有化本地部署【Windows】 1、安装Ollama 2、配置环境变量 3、下载模型 4、使用示例 a、直接访问 b、chatbox网页访问 Chatbox AI官网:办公学习的AI好助手,全平台AI客户端,官方免费下载 ...
各位热爱DolphinScheduler的小伙伴们,新年新气象,今年1月份的社区月报如期而至,请查收! 这里将更新DolphinScheduler项目和社区每月的重大进展,敬请关注。 DolphinScheduler月度Merge Stars 感谢以下小伙伴上个月为 Apache DolphinSc ...
转载自风_间 上一篇写了《DolphinScheduler接口实操(一):利用接口实现高效批量工作流导入及脚本上线》,通过DolphinScheduler的一些接口来实现导入-上线工作流,那么DolphinScheduler的接口应该怎么找呢?在此简单总结一篇。 接下来以手动执行一次工作流为例。 寻 ...
导读 某地方性股份制商业银行主要提供个人金融、公司金融、国际金融等方面的业务,承担着大量的金融数据处理与分析任务。这些任务对于确保银行的运营效率、风险管理和客户服务至关重要。过去,该银行一直依赖自建的调度系统来管理和协调这些数据任务,确保数据的准确性和及时性。然而,随着业务的不断扩展和数据量的急剧增 ...
实现了批量生成DolphinScheduler的任务,当导入时发现只能逐个导入,因此通过接口实现会更方便。 DolphinScheduler接口文档 DolphinScheduler是有接口文档的,地址是 http://IP:12345/dolphinscheduler/swagger-ui/ind ...
谁都不会想到,美国即将对Tiktok发出的禁令会让故事发生这样的转向,小红书竟成最后“赢家”。 小红书首页的“国际范” 一夜之间,小红书的首页被大量英文帖子“攻占”。中国网友纷纷表示:“一觉醒来,我成外国人了?”。这些新用户自称“TikTok难民”,并迅速在小红书上开设账号,上传内容,分享生活点滴、 ...
问题现象 有时候,Apache DolphinScheduler项目管理页面会发生加载不出来的问题,浏览器查看为[http://ip:12345/dolphinscheduler/projects?pageSize=10&pageNo=1&searchVal=]请求超时。 解决思路 查看海豚运行日志 ...
概述 本篇主要介绍如何通过Dolphinscheduler海豚调度搭配Seatunnel完成异构数据源之间的数据同步功能,这个在大数据流批一体数仓建设的过程中是一个非常好的解决方案, 稳定高效,只要用上了你肯定爱不释手。 环境准备 dolphinscheduler集群 >= 3.1.5 dolphi ...
背景: 我们是一家国内的服装公司,在全国拥有几十家服装门店,从事18个服装品类的销售,市场覆盖国内上海、华北、华中、西南、东北、中南、西北七个区域,年销售额达数千万元。财年结束了,老板希望我们(数据分析师)能对公司的销售团队的数据进行分析,并得出结论作为下年度的制定作战的方向。 一、工具选取: (1 ...
01 问题复现 在DolphinScheduler中有如下一个Shell任务: current_timestamp() { date +"%Y-%m-%d %H:%M:%S" } TIMESTAMP=$(current_timestamp) echo $TIMESTAMP sleep 60 在Dol ...