大数据 - 第7页 - 网站分类

你没见过的调度玩法！Zoom首次公开DolphinScheduler创新应用

Apache DolphinScheduler 社区 Meetup 又来啦！本次活动，我们特别邀请到了来自 Zoom 的技术专家师彬杰，带来《DolphinScheduler 在 Zoom 的生产实践》主题分享，揭秘全球最大的线上会议平台 Zoom 是如何在业务中高效使用 DolphinSchedu ...

读数据科学伦理：概念、技术和警世故事03伦理数据的收集

1. 伦理数据的收集 1.1. 隐私保护技术，如加密、模糊处理和差分隐私，这些技术着眼于保持隐私与个人数据的收集和存储之间的平衡 1.2. 有偏差的数据科学模型通常是由所收集的数据的偏差造成的 1.3. 重视伦理的数据收集实践是人体实验 1.4. 所有的数据科学项目都离不开数据 1.4.1. 就隐私 ...

【数分基本功】两种不同的用户活跃度，留存率居然完全一致！

两种不同的用户活跃度，留存率居然完全一致。这究竟是为什么？欢迎阅读【数分基本功】系列的第 1 篇。该系列会讲一些数据分析的基本问题，必要时增加拓展和深入 ...

读数据科学伦理：概念、技术和警世故事02FAT流程框架

1. 概述 1.1. 任何一种框架或核查表都会很快过时（因此需要定期更新）：数据源、技术、应用程序和伦理考量都在不断地变化 1.2. 将FAT流程框架作为通用的指导准则 2. 三个属性 2.1. 公平、责任和透明(FAT) 2.1.1. 前两个准则用于评定伦理概念，比如隐私、歧视和可解释性 2.1 ...

读数据科学伦理：概念、技术和警世故事01数据科学伦理导读

1. 数据科学伦理的兴起 1.1. 数据科学实践包括：获取数据、（预）处理数据、分析数据、对数据进行建模、评估结果，然后使用模型或结果学习知识、支持论点或做决策 1.2. 数据科学家 1.2.1. 被誉为21世纪最具吸引力的职业 1.2.2. 不仅要在现有数据集上调用预先定义库，还要在数据科学项目 ...

【SQL 周周练】爬取短视频发现数据缺失，如何用 SQL 填充

爬虫爬取抖音和快手的短视频数据时，如果遇到数据缺失的情况，如何使用 SQL 语句完成数据的补全 —— 前向填充、后向填充、平均数填充、分位数填充 ...

读数据自助服务实践指南：数据开放与洞察提效21读后总结与感想兼导读

1. 基本信息数据自助服务实践指南：数据开放与洞察提效 [美] 桑迪普·乌坦坎达尼（Sandeep Uttamchandani）著机械工业出版社,2022年05月出版 1.1. 读薄率书籍总字数271千字，笔记总字数75696字。读薄率75696÷271000≈27.93% 1.2. 读 ...

【Uber 面试真题】SQL ：每个星期连续5星评价最多的司机

这是一道来自于 Uber 面试的题目，利用 SQL 给出每周获得连续 5 星数量最多的司机。如果中间获得其他评价，则“连续 5 星”的次数中断清零。 ...

HTTP接口数据也能定时同步入湖？用DolphinScheduler×SeaTunnel快速搞定！

背景与目标我们之前曾评估使用过SeaTunnel做CDC入湖验证：SeaTunnel-CDC入湖实践，这些场景都是能直连数据库的场景，业务需求中经常会出现无法直连数据库做CDC进行数据同步的场景，而这些场景就需要使用API进行数据对接，用Apache DolphinScheduler定时同步数据。 ...

读数据自助服务实践指南：数据开放与洞察提效20成本管理服务

1. 成本管理服务 1.1. 为了利用云中可用的无限资源，企业需要无限的预算 1.1.1. 成本管理对于确保数据平台的有限预算与业务优先级的有效配合至关重要 1.1.2. 由于有众多选择，所以成本管理就像黑盒，需要不断优化成本，以适应日常工作中变化的工作负载 1.2. 操作阶段的最后一部分是成本管理 ...

SeaTunnel二次开发进阶：企业级复杂场景下的亿万级数据处理与智能容错机制

作者：史德昇随着数据来源的不断复杂化及业务需求的快速演进，通用的数据集成框架在实际落地过程中往往面临诸多挑战：数据结构不规范、字段缺失、敏感信息混杂、数据语义不清等问题频繁出现。为了更好地应对这些复杂场景，某上市网络安全龙头企业基于 Apache SeaTunnel 进行了二次开发，构建了一套可扩 ...

读数据自助服务实践指南：数据开放与洞察提效19质量可观测性服务

1. 质量可观测性服务 1.1. 数据用户需要确保峰值实际上反映了真实情况，而不是有数据质量问题的结果 1.2. 导致质量问题的情况 1.2.1. 不正确的源模式更改 1.2.2. 数据元素属性的更改 1.2.3. 接入问题 1.2.4. 源系统和目标系统的数据不同步 1.2.5. 处理失败 1.2 ...

读数据自助服务实践指南：数据开放与洞察提效18模型部署服务

1. 模型部署服务 1.1. 编写一次性脚本来部署模型并不困难 1.2. 针对模型训练类型（在线与离线）、模型推理类型（在线与离线）、模型格式（PAML、PFA、ONNX等）、终端类型（Web服务、IoT、嵌入式浏览器等）以及性能要求（由预测/秒和延迟定义）的不同组合，管理这些脚本非常困难 1 ...

读数据自助服务实践指南：数据开放与洞察提效17管道编排服务

1. 管道编排服务 1.1. 查询或程序的运行时实例称为作业 1.1.1. 作业调度需要考虑到正确的依赖项 1.2. 作业管道需要按照特定的顺序进行编排，从数据接入到数据准备再到数据处理 1.3. 痛点 1.3.1. 定义和管理作业之间的依赖项是即席的，容易出错 1.3.1.1. 数据用户需要在管道 ...

从零开始学Flink：开启实时计算的魔法之旅

本文介绍了大数据的核心特征与技术演进，并深入剖析了Apache Flink作为实时计算引擎的三大核心优势：时间管理（Watermark机制）、状态管理（算子状态与键控状态）以及容错机制（精确一次语义）。通过对比批处理与流处理架构，展示了Flink如何在电商、金融、推荐系统等实际场景中实现毫秒级的数据... ...

读数据自助服务实践指南：数据开放与洞察提效16查询优化服务

1. 查询优化服务 1.1. 好查询和坏查询之间的差别非常明显 1.2. 重复且长时间运行的查询是需要调优的 1.3. 痛点 1.3.1. 像Hadoop、Spark和Presto这样的查询引擎有太多的旋钮 1.3.1.1. 对于大多数数据用户来说，理解这些旋钮的功能和影响需要深入了解查询引擎的内部 ...

【SQL周周练】一句 SQL 如何帮助 5 个人买到电影院最好的座位？

这是一道我改编的 SQL 题目，不仅需要你输出连续的空座，还需要你去计算观影的最优位置。经过改编后，我相信是蛮有趣味的一道题。 ...

读数据自助服务实践指南：数据开放与洞察提效15A_B测试服务

1. A/B测试服务 1.1. 部署多个模型并将其呈现给不同的客户集 1.2. 基于客户使用的行为数据来选出更好的模型 1.3. A/B测试（也称为桶式测试、拆分测试或受控实验）是一个从产品变化、新特性或与产品增长相关的假设等方面来评估用户满意度的标准方法，并被广泛用于制定数据驱动的决策 1.4. ...

Kafka如何快速的入个门呢？

Kafka是什么？ Kafka是Apache基金所维护的一个中间件项目，它是一个开源的分布式事件流平台，广泛用于构建高性能的数据管道、流式分析、数据集成以及关键业务应用。这里面有几个点需要说明一下，开源自然不用讲分布式简单的理解为通过网络通信实现多台服务器部署，联动提供服务，保证容错和提高效率。 ...

读数据自助服务实践指南：数据开放与洞察提效14持续集成服务

1. 持续集成服务 1.1. 通常，机器学习模型管道随着源模式的变化、特征逻辑、依赖数据集、数据处理配置、模型算法、模型特征和配置而不断演进 1.2. 在传统的软件工程中，代码是不断更新的，各团队每天都要进行多次修改 1.3. 机器学习管道的持续集成存在多个痛点 1.3.1. 需要全面跟踪涉及数据、 ...