摘要: 什么是Alluxio Alluxio 是世界上第一个虚拟的分布式存储系统,它为计算框架和存储系统构建了桥梁,使计算框架能够通过一个公共接口连接到多个独立的存储系统,使计算与存储隔离。 Alluxio 是内存为中心的架构,以内存速度统一了数据访问速度,使得数据的访问速度能比现有方案快几个数量级,为大数 阅读全文
posted @ 2022-02-27 21:17 爱上编程技术 阅读(143) 评论(0) 推荐(0)
摘要: 1.概述 Apache Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据仓库,由百度在 2017 年开源,2018 年 8 月进入 Apache 孵化器。 Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时 阅读全文
posted @ 2022-02-27 20:53 爱上编程技术 阅读(75) 评论(0) 推荐(0)
摘要: Apache Doris 代码仓库地址:apache/incubator-doris 欢迎大家关注加星 本文通过实例来演示怎么通过Flink CDC 结合Doris的Flink Connector实现从Mysql数据库中监听数据并实时入库到Doris数仓对应的表中。 1.什么是CDC CDC 是变更 阅读全文
posted @ 2022-02-27 20:53 爱上编程技术 阅读(45) 评论(0) 推荐(0)
摘要: 写在前面 上一篇,我们从零开始搭建好了ClouderaManager的安装环境。 接下来,我们开始安装大数据生态组件,并对CDH的一些告警进行调试。 一、创建集群并安装HDFS服务 安装步骤: 选择功能授权版本 ->> 创建集群 ->> 为集群添加服务 1. 版本选择 1.1 使用默认用户名密码登录 阅读全文
posted @ 2022-02-27 20:46 爱上编程技术 阅读(32) 评论(0) 推荐(0)
摘要: 写在前面 距离上一次写cdh集群搭建的文档已经一年多,今年2月份开始Cloudera全面下架了免费的安装包下载渠道,很多朋友在集群搭建的过程中按照之前的老文档遇到了一些问题。今天重新整理一次文档。 Cloudera官网公告 未订阅授权的用户无法使用CDH6.3.3和之后的版本 所以我们继续使用CDH 阅读全文
posted @ 2022-02-27 20:21 爱上编程技术 阅读(32) 评论(0) 推荐(0)
摘要: 操作系统要求 在安装CDH之前,我们来看看平台对系统有什么样的要求。通过官方文档,我们可以看到有5个方面的要求: 软件依赖CDH和CM支持的依赖文件系统要求nproc配置Kudu所要求的nscd 软件依赖 Python 操作系统带的Python是支持的(Hue和Spark会有一点问题),但Pytho 阅读全文
posted @ 2022-02-27 20:20 爱上编程技术 阅读(10) 评论(0) 推荐(0)
摘要: T3出行的杨华和张永旭描述了他们数据湖架构的发展。该架构使用了众多开源技术,包括Apache Hudi和Alluxio。在本文中,您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半。此外,数据分析人员如何使用Presto、Hudi和Alluxio让查询速度提高了10倍。我们基于数据编 阅读全文
posted @ 2022-02-27 20:16 爱上编程技术 阅读(6) 评论(0) 推荐(0)
摘要: 背景 我们已经看到,人们更热衷于高效可靠的解决方案,拥有为数据湖提供应对突变和事务处理的能力。在数据湖中,用户基于一组数据生成报告是非常常见的。随着各种类型的数据汇入数据湖,数据的状态不会一层不变。需要改变各种数据的用例包括随时间变化的时序数据、延迟到达的时延数据、平衡实时可用性和回填、状态变化的数 阅读全文
posted @ 2022-02-27 20:13 爱上编程技术 阅读(13) 评论(0) 推荐(0)