刷新
Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南

博主头像 在Tez上优化Hive查询无法采用一刀切的方法。查询性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试过程中,应评估和验证配置参数及任何SQL修改。建议在工作负载的性能测试过程中一次只进行一项更改,并最好在开发环境中评估调优更改的影响,然后再在生产环境中使用。 ...

DataOps真能“降本增效”?

博主头像 在各行各业中,越来越多的公司开始重视收集数据,并寻找创新方法来获得真实可行的商业成果,并且愿意投入大量时间和金钱来实现这一目标。 据IDC称,数据和分析软件及云服务市场规模在 2021 年达到了 900 亿美元,随着企业继续对人工智能和机器学习 (AI/ML) 和现代数据计划进行投资,预计到 202 ...

直播预约丨《袋鼠云大数据实操指南》No.3:数据资产管理实操,如何有效进行数据治理

博主头像 近年来,新质生产力、数据要素及数据资产入表等新兴概念犹如一股强劲的浪潮,持续冲击并革新着企业数字化转型的观念视野,昭示着一个以数据为核心驱动力的新时代正稳步启幕。 面对这些引领经济转型的新兴概念,为了更好地服务于客户并提供切实可行的实践指导,自3月20日起,袋鼠云将推出全新《袋鼠云大数据实操指南》系 ...

Elasticsearch如何聚合查询多个统计值,如何嵌套聚合?并相互引用,统计索引中某一个字段的空值率?语法是怎么样的?

博主头像 Elasticsearch聚合查询是一种强大的工具,允许我们对索引中的数据进行复杂的统计分析和计算。本文将详细解释一个聚合查询示例,该查询用于统计满足特定条件的文档数量,并计算其占总文档数量的百分比。这里回会分享如何统计某个字段的空值率,然后扩展介绍ES的一些基础知识。 ...

为数据安全护航,袋鼠云在数据分类分级上的探索实践

博主头像 在大数据时代,数据具有多源异构的特性,且价值各异,企业需依据数据的重要性、价值指数等予以区分,以利采取不同的数据保护举措,避免数据泄露。故而,数据分类分级管理属于数据安全保护中极为重要的环节之一。 2021 年 12 月 31 日,全国信息安全标准化技术委员会秘书处颁布了《网络安全标准实践指南——网 ...

Hadoop习题汇总

博主头像 目录选择单选多选判断填空简答 选择 单选 查看HDFS系统版本的Shell命令,以下正确的是()。 hdfs -ver hdfs version (答案) dfsadmin version hadoop -ver 数据存储单位从小到大排列顺序是() TB、PB、EB、ZB、YB (答案) TB、YB ...

如何获取Flume连接HDFS所需要的包

博主头像 在学习Hadoop工具中的Flume时,有的小伙伴会遇到这句话: “Flume要想将数据输出到HDFS,必须持有Hadoop相关jar包” 然后小伙伴就懵逼了,这些包要去什么地方来找呢? (远在天边,近在眼前) 首先,我们需要的包有 commons-configuration-1.6.jar、 ha ...

【运维技巧】海豚调度工作流实例卡在正在停止&任务实例卡在正在运行怎么办?

博主头像 在大数据调度系统中,,大家可能会碰到任务实例状态更新不及时的情况。 对于Apache DolphinScheduler用户来说,这可能意味着前端显示的任务状态与实际情况不一致,即使任务已经在后台停止运行,前端仍显示为“正在运行”。 这种现象不仅影响监控和管理,还可能导致后续任务调度出现问题。那么,当 ...

数栈xAI:轻量化、专业化、模块化,四大功能革新 SQL 开发体验

博主头像 在这个数据如潮的时代,SQL 已远远超越了简单的查询语言范畴,它已成为数据分析和决策制定的基石,成为撬动企业智慧决策的关键杠杆。SQL 的编写和执行效率直接关系到数据处理的速度和分析结果的深度,对企业洞察市场动态、优化业务流程、提升决策质量起着至关重要的作用。 如何在浩瀚的数据海洋中快速捕捞到价值信 ...

直播预约丨《指标体系建设实战》第三期:指标平台功能架构及落地实践

博主头像 指标是反映企业的各项核心业务活动、管理成效的数据体系,指标体系作为联结业务逻辑与数据实体的关键桥梁,是构建高质量数据统计的基础单元,并在量化业务绩效和效果评估中扮演着核心角色。 为了更好地服务于客户并提供切实可行的实践指导,自4月24日起,袋鼠云将推出全新《指标体系建设实战》系列直播。该系列内容覆盖 ...

实现全国算力互联互通,我们是认真的!

博主头像 近日,全国智能计算标准化工作组算力互联互通研究组启动会在北京正式召开,来自中国工程院、工业和信息化部、中国信息通信研究院、全国智能计算标准化工作组的领导及智算行业知名企业代表和业内专家共襄盛举,围绕推进算力互联互通展开交流碰撞,凝智聚力,共话行业生态,共谋算力发展。会上成立算力互联互通国家标准研究组... ...

一文搞懂DevOps、DataOps、MLOps、AIOps:所有“Ops”的比较

博主头像 引言 近年来,“Ops”一词在 IT 运维领域的使用迅速增加。IT 运维正在向自动化过程转变,以改善客户交付。传统的应用程序开发采用 DevOps 实施持续集成(CI)和持续部署(CD)。但对于数据密集型的机器学习和人工智能(AI)应用,精确的交付和部署过程可能并不适用。 本文将定义不同的“Ops” ...

袋鼠云产品功能更新报告10期|智能进化,近百项功能升级加速数智化转型

博主头像 欢迎查阅袋鼠云第10期产品功能更新报告。本期,我们精心推出了72项新增和优化功能,致力于在数字化浪潮中为您提供更高效、更智能的服务。我们相信,这些新特性将为您的业务注入新活力,确保您在数字化转型的每一步都坚实而有力。 以下为袋鼠云产品功能更新报告第10期内容,更多探索,请继续阅读。 离线开发平台 新 ...

2.6倍!WhaleTunnel 客户POC实景对弈DataX

博主头像 作为阿里早期的开源产品,DataX是一款非常优秀的数据集成工具,普遍被用于多个数据源之间的批量同步,包括类似Apache DolphinScheduler的Task类型也对DataX进行了适配和增强,可以直接在DolphinScheduler里面利用通用的数据源调用DataX进行数据批量同步。 作为 ...

<1···678···19>