作者 | Tina Agent 正在成为 2025 年 AI 世界最炙手可热的关键词之一。 无论是大模型厂商、AI 初创公司,还是企业级应用团队,几乎都在讨论“多智能体协作”“自动化决策流程”以及“具备工具调用能力的 AI 系统”。 谷歌、英伟达等科技巨头纷纷布局,上个月亚马逊还成立了一个专注于 A ...
Apache DolphinScheduler 社区 Meetup 又来啦!本次活动,我们特别邀请到了来自 Zoom 的技术专家师彬杰,带来《DolphinScheduler 在 Zoom 的生产实践》主题分享,揭秘全球最大的线上会议平台 Zoom 是如何在业务中高效使用 DolphinSchedu ...
1. 伦理数据的收集 1.1. 隐私保护技术,如加密、模糊处理和差分隐私,这些技术着眼于保持隐私与个人数据的收集和存储之间的平衡 1.2. 有偏差的数据科学模型通常是由所收集的数据的偏差造成的 1.3. 重视伦理的数据收集实践是人体实验 1.4. 所有的数据科学项目都离不开数据 1.4.1. 就隐私 ...
两种不同的用户活跃度,留存率居然完全一致。这究竟是为什么?欢迎阅读【数分基本功】系列的第 1 篇。该系列会讲一些数据分析的基本问题,必要时增加拓展和深入 ...
1. 概述 1.1. 任何一种框架或核查表都会很快过时(因此需要定期更新):数据源、技术、应用程序和伦理考量都在不断地变化 1.2. 将FAT流程框架作为通用的指导准则 2. 三个属性 2.1. 公平、责任和透明(FAT) 2.1.1. 前两个准则用于评定伦理概念,比如隐私、歧视和可解释性 2.1 ...
1. 数据科学伦理的兴起 1.1. 数据科学实践包括:获取数据、(预)处理数据、分析数据、对数据进行建模、评估结果,然后使用模型或结果学习知识、支持论点或做决策 1.2. 数据科学家 1.2.1. 被誉为21世纪最具吸引力的职业 1.2.2. 不仅要在现有数据集上调用预先定义库,还要在数据科学项目 ...
爬虫爬取抖音和快手的短视频数据时,如果遇到数据缺失的情况,如何使用 SQL 语句完成数据的补全 —— 前向填充、后向填充、平均数填充、分位数填充 ...
1. 基本信息 数据自助服务实践指南:数据开放与洞察提效 [美] 桑迪普·乌坦坎达尼 (Sandeep Uttamchandani) 著 机械工业出版社,2022年05月出版 1.1. 读薄率 书籍总字数271千字,笔记总字数75696字。 读薄率75696÷271000≈27.93% 1.2. 读 ...
这是一道来自于 Uber 面试的题目,利用 SQL 给出每周获得连续 5 星数量最多的司机。如果中间获得其他评价,则“连续 5 星”的次数中断清零。 ...
背景与目标 我们之前曾评估使用过SeaTunnel做CDC入湖验证:SeaTunnel-CDC入湖实践,这些场景都是能直连数据库的场景,业务需求中经常会出现无法直连数据库做CDC进行数据同步的场景,而这些场景就需要使用API进行数据对接,用Apache DolphinScheduler定时同步数据。 ...
1. 成本管理服务 1.1. 为了利用云中可用的无限资源,企业需要无限的预算 1.1.1. 成本管理对于确保数据平台的有限预算与业务优先级的有效配合至关重要 1.1.2. 由于有众多选择,所以成本管理就像黑盒,需要不断优化成本,以适应日常工作中变化的工作负载 1.2. 操作阶段的最后一部分是成本管理 ...
作者:史德昇 随着数据来源的不断复杂化及业务需求的快速演进,通用的数据集成框架在实际落地过程中往往面临诸多挑战:数据结构不规范、字段缺失、敏感信息混杂、数据语义不清等问题频繁出现。为了更好地应对这些复杂场景,某上市网络安全龙头企业基于 Apache SeaTunnel 进行了二次开发,构建了一套可扩 ...
1. 质量可观测性服务 1.1. 数据用户需要确保峰值实际上反映了真实情况,而不是有数据质量问题的结果 1.2. 导致质量问题的情况 1.2.1. 不正确的源模式更改 1.2.2. 数据元素属性的更改 1.2.3. 接入问题 1.2.4. 源系统和目标系统的数据不同步 1.2.5. 处理失败 1.2 ...
1. 模型部署服务 1.1. 编写一次性脚本来部署模型并不困难 1.2. 针对模型训练类型(在线与离线)、模型推理类型(在线与离线)、模型格式(PAML、PFA、ONNX等)、终端类型(Web服务、IoT、嵌入式浏览器等)以及性能要求(由预测/秒和延迟定义)的不同组合,管理这些脚本非常困难 1 ...
1. 管道编排服务 1.1. 查询或程序的运行时实例称为作业 1.1.1. 作业调度需要考虑到正确的依赖项 1.2. 作业管道需要按照特定的顺序进行编排,从数据接入到数据准备再到数据处理 1.3. 痛点 1.3.1. 定义和管理作业之间的依赖项是即席的,容易出错 1.3.1.1. 数据用户需要在管道 ...
本文介绍了大数据的核心特征与技术演进,并深入剖析了Apache Flink作为实时计算引擎的三大核心优势:时间管理(Watermark机制)、状态管理(算子状态与键控状态)以及容错机制(精确一次语义)。通过对比批处理与流处理架构,展示了Flink如何在电商、金融、推荐系统等实际场景中实现毫秒级的数据... ...
1. 查询优化服务 1.1. 好查询和坏查询之间的差别非常明显 1.2. 重复且长时间运行的查询是需要调优的 1.3. 痛点 1.3.1. 像Hadoop、Spark和Presto这样的查询引擎有太多的旋钮 1.3.1.1. 对于大多数数据用户来说,理解这些旋钮的功能和影响需要深入了解查询引擎的内部 ...
这是一道我改编的 SQL 题目,不仅需要你输出连续的空座,还需要你去计算观影的最优位置。经过改编后,我相信是蛮有趣味的一道题。 ...
1. A/B测试服务 1.1. 部署多个模型并将其呈现给不同的客户集 1.2. 基于客户使用的行为数据来选出更好的模型 1.3. A/B测试(也称为桶式测试、拆分测试或受控实验)是一个从产品变化、新特性或与产品增长相关的假设等方面来评估用户满意度的标准方法,并被广泛用于制定数据驱动的决策 1.4. ...
Kafka是什么? Kafka是Apache基金所维护的一个中间件项目,它是一个开源的分布式事件流平台,广泛用于构建高性能的数据管道、流式分析、数据集成以及关键业务应用。 这里面有几个点需要说明一下,开源自然不用讲 分布式简单的理解为通过网络通信实现多台服务器部署,联动提供服务,保证容错和提高效率。 ...