大数据 - 第3页 - 网站分类

《数据资产管理核心技术与应用》读书笔记- 第七章- 数据权限与安全（一）

《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书，全书共分10章，第1章主要让读者认识数据资产，了解数据资产相关的基础概念，以及数据资产的发展情况。第2～8章主要介绍大数据时代数据资产管理所涉及的核心技术，内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 ...

数据运营DataOps扩展实时数据系统

引言实时决策已不再是竞争优势；它正成为基本预期。从欺诈检测到个性化推荐，现代系统需要在毫秒内处理和响应用户活动。然而，尽管对实时数据的需求激增，许多工程团队仍在应对脆弱的数据管道、静默故障和易碎的部署。本文中，我们将探讨数据运营DataOps如何为实时架构带来亟需的纪律性。我们将深入探讨持续集成/ ...

基于RAG的工业品商品智能推荐

背景 MRO 工业品是企业生产运营中不可或缺的一类物资，核心是为保障生产设备正常运转、维持企业日常运营提供支持，而非直接用于生产最终产品的原材料或零部件。其名称源于英文 “Maintenance（维护）、Repair（维修）、Operations（运营）” 的缩写，本质是 “非生产性采购物资”。目 ...

大数据产品线生产操作安全规约

本文分享自天翼云开发者社区《大数据产品线生产操作安全规约》，作者：朱****静第一章总则第一条为健全安全生产制度，落实安全生产责任,增强安全风险/隐患排查治理能力，促进安全生产长效机制建设,防止和减少生产安全事故，结合大数据产品线实际情况，特制定本生产操作安全管理办法。第二条本管理办法 ...

vivo Pulsar 万亿级消息处理实践（4）-Ansible运维部署

本篇文章主要从Pulsar运维痛点、Ansible简介、Ansible核心模块详解、Ansible自动化部署zk集群、Ansible自动化部署Pulsar集群几个维度向大家介绍vivo Pulsar万亿级消息处理实践之运维部署。 ...

《数据资产管理核心技术与应用》读书笔记- 第六章-数据监控与告警（二) -如何使用Grafana和Prometheus来实现数据监控与告警

《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书，全书共分10章，第1章主要让读者认识数据资产，了解数据资产相关的基础概念，以及数据资产的发展情况。第2～8章主要介绍大数据时代数据资产管理所涉及的核心技术，内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 ...

Uber Eats优食如何删除上亿张商品重复图片数据

背景在 Uber Eats 优食的规模上，图像处理是运营的必要条件。该平台管理着数亿张产品图片，每小时有数百万次更新流经系统。每张图像都有成本：网络带宽、处理时间、存储空间和 CDN 占用空间。随着 Uber Eats 优食从餐厅扩展到杂货、酒类和家居用品，形象渠道开始紧张。例如，单一产品（例如一 ...

数据治理之数据质量评估维度及方法

本文分享自天翼云开发者社区《数据治理之数据质量评估维度及方法》，作者：i****n 从某种程度上来说“数据=金钱”，数据质量的好坏直接决定着数据价值高低，直接或简介影响一个企业的决策方向。数据质量管理是指在数据创建、加工、使用和迁移等过程中，通过开展数据质量定义、过程控制、监测、问题分析和整改、评估 ...

读用数据说服：如何设计、呈现和捍卫你的数据09读后总结与感想兼导读

1. 基本信息用数据说服：如何设计、呈现和捍卫你的数据米罗·卡扎科夫著金城出版社有限公司,2025年07月出版 1.1. 读薄率书籍总字数8.6万字，笔记总字数26227字。读薄率26227÷86000≈30.5% 1.2. 读厚方向 DataMesh权威指南数据的边界：隐私与个人数据 ...

二次开发必看！DolphinScheduler 3.1.9 开发环境搭建指南

本文结合真实案例，详细介绍 DolphinScheduler 3.1.9 的二次开发环境配置流程，希望为有定制化开发需求的用户提供实用、可靠的参考。 ...

读用数据说服：如何设计、呈现和捍卫你的数据08数据呈现和反对意见

1. 数据呈现 1.1. 数据自己会说话，但事实并非如此 1.1.1. 数据不会说话，当然更不能解释它对你的业务有何意义 1.1.2. 数据自己不会说话，必须由你让它说话 1.2. 在最好的情况下，数据导向的演示文稿能够促进交互，丰富讨论，得出优质决策 1.3. TOP-T框架，这是一种数据向幻灯片 ...

读用数据说服：如何设计、呈现和捍卫你的数据07数据框架

1. 数据框架 1.1. 受众评判的不只是数据 1.2. 有力证据和清晰结构是高效数据沟通的基础 1.2.1. 薄弱证据和迷糊逻辑往往也能促使他人行动 1.3. 数据评判不准确有很多都是由认知偏误造成的，也就是屡错屡犯的系统性思维误区 1.4. 中枢处理(central processing) 1. ...

Hive自定义函数(UDF)开发和应用流程

目录引言一、Hive自定义函数的类型二、准备环境和工具三、实际案例开发编译四、前方有坑请注意五、总结引言 Hive作为大数据领域的核心计算引擎，凭借其强大的SQL支持和丰富的内置函数，早已成为数据开发者的效率利器。然而在实际业务场景中，面对复杂的数据处理需求时，仅仅依赖内置函数往往力不从心，当需要 ...

读用数据说服：如何设计、呈现和捍卫你的数据06明托金字塔

1. 明托金字塔(Minto pyramid) 1.1. 目的是加强沟通的清晰度，用故事来确定主旨，检验论证的逻辑严谨性 1.2. 明托金字塔是一种着眼于最终沟通形式的思维组织工具 1.3. 得名于推广者芭芭拉·明托(Barbara Minto) 1.4. 支持主旨的是一组核心论点 1.4.1. 芭 ...

数据治理之数据资产健康度量

本文分享自天翼云开发者社区《数据治理之数据资产健康度量》，作者：徐****东随着数据量的不断增加，数据治理已经成为了企业管理里不可或缺的一环。数据治理可以帮助我们更好地进行数据的管理和使用，从而提升数据的质量和价值，同时也能够保证数据的安全和合规。一、数据治理面临的问题数据治理中主要面临的问题 ...

数据治理之构建数据资产目录

本文分享自天翼云开发者社区《数据治理之构建数据资产目录》，作者：徐****东一、引言现如今，数据已经成为企业实现业务价值的关键。随着大数据技术的发展，企业对于数据的收集、分析和利用越来越重视。其中，数据资产化已经成为企业数据管理的重要趋势，它能帮助企业更好地发掘和利用数据中的价值，从而提升业务效 ...

读用数据说服：如何设计、呈现和捍卫你的数据05高效幻灯片

1. 高效幻灯片 1.1. 在商业领域，受众看到的数据图大部分被整合在幻灯片中 1.2. 确定每张幻灯片要表达的要点 1.3. 每张幻灯片都要有一个要点 1.3.1. 幻灯片要点指的是，你向这些受众展示这些数据的原因 1.3.2. 每张幻灯片都要有一个明确的要点，以便帮助受众减轻认知负荷 1.3.2 ...

DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业？

用户可以在DolphinScheduler Web界面轻松创建、编辑和调度云原生数据仓库 AnalyticDB MySQL 版的Spark作业。 ...

MySQL 数据同步至 S3file，并接入 Hive 访问：SeaTunnel 实践指南

本文详述的步骤已全部通过测试验证，适用于构建基于对象存储的数据中台场景，具备部署灵活、扩展性强等优势，对有 MySQL 到 S3 数据集成需求的用户具有较高的参考价值，点赞、收藏学习吧！ ...

读用数据说服：如何设计、呈现和捍卫你的数据04简化增效

1. 简化增效 1.1. 就算数据图设计得很用心，但如果过于复杂，那也无法说服受众 1.2. 让你的数据图像透明的窗户一样，让受众看清底层的数据 1.3. 最大化数据墨水比，建立信息层级 2. 数据墨水 2.1. 将数据墨水比最大化 2.1.1. 高效的数据图是清晰的 2.1.1.1. 纸页上的每一 ...