摘要: 介绍 Apache Sqoop是一个用于在Apache Hadoop和关系型数据库之间传输数据的强大工具。它提供了一种高效的方式,让用户能够将结构化数据从关系型数据库导入到Hadoop的分布式文件系统(HDFS)中,并支持反向操作,将数据从Hadoop导出到关系型数据库。 Sqoop的主要功能包括数 阅读全文
posted @ 2024-01-19 12:32 sober_zero 阅读(97) 评论(0) 推荐(0)
摘要: 简介 Hadoop的完全分布式模式是在多台机器上运行Hadoop集群,实现更高的性能和可伸缩性。以下是Hadoop完全分布式模式的简要安装部署。 环境准备 确保你的环境满足以下要求: • 操作系统:CentOS • Java:安装Java 8或更高版本 • SSH:确保所有节点之间可以通过SSH互相 阅读全文
posted @ 2024-01-17 15:13 sober_zero 阅读(72) 评论(0) 推荐(0)
摘要: 简介 Apache Spark是一个开源的大数据处理框架,提供了高性能、通用的分布式数据处理能力。而YARN(Yet Another Resource Negotiator)是Hadoop生态系统的资源管理器,用于分配和管理集群资源。Spark on YARN是将Spark框架与YARN集成,以便更 阅读全文
posted @ 2024-01-17 14:24 sober_zero 阅读(31) 评论(0) 推荐(0)
摘要: 简介 Apache Kafka是一款开源的分布式流处理平台,最初由LinkedIn开发,并于2011年开源。它是一个高吞吐量、可扩展、持久化的消息发布-订阅系统。Kafka被设计用于处理实时数据流,支持大规模的数据流和实时事件处理。 准备工作 确保你的系统满足以下要求: • Java 8或更高版本已 阅读全文
posted @ 2024-01-17 14:07 sober_zero 阅读(52) 评论(0) 推荐(0)
摘要: 简介 Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源 阅读全文
posted @ 2024-01-17 13:26 sober_zero 阅读(747) 评论(0) 推荐(0)
摘要: 简介 Apache Flume 是一个分布式、可靠、高可用的服务,用于有效地收集、聚合和移动大规模数据。Flume 主要用于大数据环境下的日志收集和数据传输,能够帮助用户实现数据流的可靠传输和集中处理。 flume安装配置 解压安装包 tar -zxvf apache-flume-1.9.0-bin 阅读全文
posted @ 2024-01-17 12:33 sober_zero 阅读(135) 评论(0) 推荐(0)
摘要: 实现Hadoop高可用性部署 Hadoop High Availability(HA)是一种设计模式,用于确保在Hadoop分布式文件系统(HDFS)和资源管理器(ResourceManager)等关键组件中发生故障时,系统能够继续提供服务。HA的目标是减小单点故障对系统可用性的影响,使Hadoop 阅读全文
posted @ 2023-12-31 17:14 sober_zero 阅读(165) 评论(0) 推荐(0)
摘要: Could not start ZK with 3 ZK servers in local mode deployment. Aborting as clients (e.g. shell) will not be able to find this ZK quorum. 控制台报错: 这个错误表明 阅读全文
posted @ 2023-12-29 15:13 sober_zero 阅读(324) 评论(1) 推荐(1)
摘要: 控制台报错: [root@bigdata1 sqoop-1.4.2.bin__hadoop-2.0.0-alpha]# ./bin/sqoop list-databases --connect jdbc:mysql://192.168.45.10:3306 --username root --pas 阅读全文
posted @ 2023-12-27 19:53 sober_zero 阅读(337) 评论(0) 推荐(0)
摘要: 引言 Apache Hive 是一款建立在 Hadoop 生态系统之上的数据仓库工具,它提供了一种 SQL 类似的查询语言(HiveQL)来查询和分析存储在 Hadoop 分布式文件系统(HDFS)中的大规模数据。Hive 的设计目标是让用户可以在大规模数据集上执行复杂的查询,而无需深入了解 Map 阅读全文
posted @ 2023-12-27 15:59 sober_zero 阅读(137) 评论(0) 推荐(0)
点击右上角即可分享
微信分享提示