刷新
读数据自助服务实践指南:数据开放与洞察提效20成本管理服务

博主头像 1. 成本管理服务 1.1. 为了利用云中可用的无限资源,企业需要无限的预算 1.1.1. 成本管理对于确保数据平台的有限预算与业务优先级的有效配合至关重要 1.1.2. 由于有众多选择,所以成本管理就像黑盒,需要不断优化成本,以适应日常工作中变化的工作负载 1.2. 操作阶段的最后一部分是成本管理 ...

SeaTunnel二次开发进阶:企业级复杂场景下的亿万级数据处理与智能容错机制

博主头像 作者:史德昇 随着数据来源的不断复杂化及业务需求的快速演进,通用的数据集成框架在实际落地过程中往往面临诸多挑战:数据结构不规范、字段缺失、敏感信息混杂、数据语义不清等问题频繁出现。为了更好地应对这些复杂场景,某上市网络安全龙头企业基于 Apache SeaTunnel 进行了二次开发,构建了一套可扩 ...

读数据自助服务实践指南:数据开放与洞察提效18模型部署服务

博主头像 1. 模型部署服务 1.1. 编写一次性脚本来部署模型并不困难 1.2. 针对模型训练类型(在线与离线)​、模型推理类型(在线与离线)​、模型格式(PAML、PFA、ONNX等)​、终端类型(Web服务、IoT、嵌入式浏览器等)以及性能要求(由预测/秒和延迟定义)的不同组合,管理这些脚本非常困难 1 ...

从零开始学Flink:开启实时计算的魔法之旅

博主头像 本文介绍了大数据的核心特征与技术演进,并深入剖析了Apache Flink作为实时计算引擎的三大核心优势:时间管理(Watermark机制)、状态管理(算子状态与键控状态)以及容错机制(精确一次语义)。通过对比批处理与流处理架构,展示了Flink如何在电商、金融、推荐系统等实际场景中实现毫秒级的数据... ...

读数据自助服务实践指南:数据开放与洞察提效15A_B测试服务

博主头像 1. A/B测试服务 1.1. 部署多个模型并将其呈现给不同的客户集 1.2. 基于客户使用的行为数据来选出更好的模型 1.3. A/B测试(也称为桶式测试、拆分测试或受控实验)是一个从产品变化、新特性或与产品增长相关的假设等方面来评估用户满意度的标准方法,并被广泛用于制定数据驱动的决策 1.4.  ...

Kafka如何快速的入个门呢?

博主头像 Kafka是什么? Kafka是Apache基金所维护的一个中间件项目,它是一个开源的分布式事件流平台,广泛用于构建高性能的数据管道、流式分析、数据集成以及关键业务应用。 这里面有几个点需要说明一下,开源自然不用讲 分布式简单的理解为通过网络通信实现多台服务器部署,联动提供服务,保证容错和提高效率。 ...

读数据自助服务实践指南:数据开放与洞察提效14持续集成服务

博主头像 1. 持续集成服务 1.1. 通常,机器学习模型管道随着源模式的变化、特征逻辑、依赖数据集、数据处理配置、模型算法、模型特征和配置而不断演进 1.2. 在传统的软件工程中,代码是不断更新的,各团队每天都要进行多次修改 1.3. 机器学习管道的持续集成存在多个痛点 1.3.1. 需要全面跟踪涉及数据、 ...

读数据自助服务实践指南:数据开放与洞察提效13模型训练服务

博主头像 1. 模型训练服务 1.1. 如果洞察是机器学习模型,则需要进行模型训练 1.2. 典型的数据科学家在训练过程中会探索数百个模型组合,以找到最准确的模型 1.3. 探索包括尝试机器学习算法、超参数值和数据特征的不同排列组合 1.4. 挑战 1.4.1. 随着数据集大小不断扩大和复杂的深度学习模型数量 ...

从架构原理到落地实践:Apache SeaTunnel×Cloudberry数据集成全解读

博主头像 在数据驱动的数字时代,企业正面临前所未有的数据增长与系统复杂性。数据分布在不同系统、格式与平台中,导致“信息孤岛”问题日益严重。打破这些孤岛,实现数据的高效整合与共享,成为推动企业智能决策与业务创新的关键。而 Apache SeaTunnel 正是在这样的需求下崭露头角,它以简洁的使用方式、强大的插 ...

<1···678···13>