刷新
ClickHouse(21)ClickHouse集成Kafka表引擎详细解析

博主头像 目录Kafka表集成引擎配置Kerberos 支持虚拟列资料分享系列文章clickhouse系列文章 Kafka表集成引擎 此引擎与Apache Kafka结合使用。 Kafka 特性: 发布或者订阅数据流。 容错存储机制。 处理流数据。 老版Kafka集成表引擎参数格式: Kafka(kafka_ ...

开源大数据集群部署(二)集群基础环境实施准备

博主头像 作者:櫰木 环境准备 本次使用到的二进制软件包目录为:系统初始化前提是操作系统已完成安装、各个主机之间网络互通,系统常用命令已安装,本默认这些前提条件已具备,不在阐述。 1 主机环境初始化 安装centos系统完成后需要对主机进行初始化配置和验证工作,在所有主机上(hd1.dtstack.com-h ...

作业帮基于 DolphinScheduler 的数据开发平台实践

博主头像 摘要 随着任务数量、任务类型需求不断增长,对我们的数据开发平台提出了更高的要求。本文主要分享我们将调度引擎升级到 Apache DolphinScheduler 的实践经验,以及对数据开发平台的一些思考。 1. 背景 首先介绍下我们的大数据平台架构: 数据计算层承接了全公司的数据开发需求,负责运行各 ...

EasyMR:为 AI 未来赋能,打造弹性大数据引擎的革命

博主头像 如果要评一个2023科技圈的热搜榜,那么以人工智能聊天机器人 ChatGPT 为代表的 AI大模型 绝对会霸榜整个2023。 ChatGPT 于2022年11月30日发布。产品发布5日,注册用户数就超过100万。推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的 ...

开源大数据集群部署(一)集群实施规划

博主头像 作者:櫰木 本次集群规划信息 本次实际生产业务体量存在巨大差异,但集群规划内容相同,因此建议实际生产环境按照按照一定比例扩展即可。 主机操作系统要求 软件信息 参数 配置 8C16G 操作系统版本 CentOS Linux release 7.8.2003 (Core) java版本 java ve ...

【开源项目】轻量元数据管理解决方案——Marquez

博主头像 大家好,我是独孤风。 又到了本周的开源项目推荐。最近推荐的元数据管理项目很多,但是很多元数据管理平台的功能复杂难用。 那么有没有轻量一点的元数据管理项目呢? 今天为大家推荐的开源项目,就是一个轻量级的元数据管理工具。虽然轻量,但是元数据的收集、展示、数据血缘等功能都是支持的。 让我们一起来看看吧~ ...

springboot~kafka-stream实现实时统计

博主头像 实时统计,也可以理解为流式计算,一个输入流,一个输出流,源源不断。 Kafka Stream Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature。它是提供了对存储于Kafka内的数据进行流式处理和分析的功能。 Kafka Stream的特点 Kafka Str ...

数字化时代下的数字化资产及其治理 |京东云技术团队

博主头像 1 什么是数字化资产 维克托·迈尔·舍恩伯格在《大数据时代》中提到:“虽然数据还没有被列入企业的资产负债表,但这只是一个时间问题。”数据资源将和土地、人力、资金等生产要素一样,成为企业的资产。业界对于数据资产的定义是企业或组织拥有或控制的,能在未来带来经济利益的数据资源。 数字化资产是指由企业拥有或 ...

元数据管理平台对比预研 Atlas VS Datahub VS Openmetadata

博主头像 大家好,我是独孤风。元数据管理平台层出不穷,但目前主流的还是Atlas、Datahub、Openmetadata三家,那么我们该如何选择呢? 本文就带大家对比一下。要了解元数据管理平台,先要从架构说起。 元数据管理的架构与开源方案 下面介绍元数据管理的架构实现,不同的架构都对应了不同的开源实现。 下 ...

海豚²来了丨DolphinDB 集成 DolphinScheduler,任务调度更轻松

博主头像 DolphinDB 是一款高性能时序数据库。DolphinDB 集成了功能强大的编程语言和高容量高速度的批流一体数据分析系统,为海量数据(特别是时间序列数据)的快速存储、检索、计算及分析提供一站式解决方案。在实际生产环境中,经常存在数据导入、转换、查询计算,更新等一系列流程任务,各个部分之间存在依赖 ...

终于肝完了!全网最全、最详细、最全面的 Hadoop大数据学习教程( 2023最新版 )

博主头像 大家好,我是民工哥! 前面给大家介绍了:关系型数据库 MySQL 、 NoSQL 数据库 Redis 、 MongoDB 、搜索引擎 ElasticSearch 等知识体系学习的文章。 在当今这样的就业大背景下,卷是肯定的,强大自己也是必须的。所以,学习不能停,必须一直卷下去。截止今天,又一个知识体 ...

【开源项目推荐】Great Expectations—开源的数据质量工具

博主头像 大家好,我是独孤风。 又到了本周的开源项目推荐。数据质量是企业进行数据治理非常重要的一个环节,高质量的数据对管理决策,业务支撑都有非常重要的作用。 只有持续的数据质量改进才能推动数据治理体系的完善,差劲的数据质量就如同顽固的疾病一样,如果不能得到及时的改善,最终可能会导致重大的问题。 近几年来,管理 ...

干货|EasyMR 基于 Kubernetes 应用的监控实践

博主头像 在之前的内容中,我们深入探讨了 EasyMR 如何利用 Kubernetes 进行部署。大家已经了解到,在 EasyMR 的整体架构中,我们使用 Prometheus 进行节点和服务监控数据的采集、查询和存储。同时,Grafana 作为强大的可视化工具,将 Prometheus 中的监控数据以多样化 ...

Flink侧输出流解析

博主头像 在实时数据处理领域,Apache Flink 已成为一个不可或缺的工具。它以其高吞吐量和低延迟处理能力而闻名。而在 Flink 的众多特性中,侧输出流(Side Outputs)提供了一种灵活的方式来处理复杂的数据流。本文将探讨如何在 Flink 的 Scala API 中有效使用侧输出流。 1. ...

江铃晶马 X 袋鼠云:搭建企业级数据资产中心,推进打造“智数晶马”

博主头像 江铃集团晶马汽车有限公司(简称:晶马汽车)系江铃集团全资子公司,属集团六大整车企业之一。晶马汽车是以大、中、轻型客车(含新能源客车)、乘用车(不含轿车)、专用车等车型研发、生产、销售和服务为核心的整车企业,涉及客运、公交、旅游、通勤、旅居车、物流、专用车等行业客户。 伴随公司信息化和数字化建设的逐步 ...

Hive ACID笔记

博主头像 环境:hive 3.1.0 执行引擎:hive on tez 什么是hive ACID? hive官网对于ACID的介绍: https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions 中文文档关于ACID的介绍: https: ...

聊聊流式数据湖Paimon(五)

博主头像 从Demo入手,了解Paimon/Flink项目搭建的全过程。记录下采坑之旅。 创建Flink项目 在IDEA中创建Flink项目,由于没有Flink的archetype,因此需要手动创建一下。 参考:idea快速创建flink项目,至此Flink的项目框架就搭建起来了。 注意:必须注释掉pom文件 ...

聊聊流式数据湖Paimon(四)

博主头像 Partial Update 数据打宽 通过不同的流写不同的字段,打宽了数据的维度,填充了数据内容;如下所示: --FlinkSQL参数设置 set `table.dynamic-table-options.enabled` = `true`; SET `env.state.backend` = ` ...

<1···456···20>