sober_zero - 博客园

2024年1月19日

摘要：介绍 Apache Sqoop是一个用于在Apache Hadoop和关系型数据库之间传输数据的强大工具。它提供了一种高效的方式，让用户能够将结构化数据从关系型数据库导入到Hadoop的分布式文件系统（HDFS）中，并支持反向操作，将数据从Hadoop导出到关系型数据库。 Sqoop的主要功能包括数阅读全文

posted @ 2024-01-19 12:32 sober_zero 阅读(132) 评论(0) 推荐(0)

2024年1月17日

hadoop完全分布式安装部署

摘要：简介 Hadoop的完全分布式模式是在多台机器上运行Hadoop集群，实现更高的性能和可伸缩性。以下是Hadoop完全分布式模式的简要安装部署。环境准备确保你的环境满足以下要求： • 操作系统：CentOS • Java：安装Java 8或更高版本 • SSH：确保所有节点之间可以通过SSH互相阅读全文

posted @ 2024-01-17 15:13 sober_zero 阅读(140) 评论(0) 推荐(0)

Spark on Yarn

摘要：简介 Apache Spark是一个开源的大数据处理框架，提供了高性能、通用的分布式数据处理能力。而YARN（Yet Another Resource Negotiator）是Hadoop生态系统的资源管理器，用于分配和管理集群资源。Spark on YARN是将Spark框架与YARN集成，以便更阅读全文

posted @ 2024-01-17 14:24 sober_zero 阅读(59) 评论(0) 推荐(0)

kafka安装配置

摘要：简介 Apache Kafka是一款开源的分布式流处理平台，最初由LinkedIn开发，并于2011年开源。它是一个高吞吐量、可扩展、持久化的消息发布-订阅系统。Kafka被设计用于处理实时数据流，支持大规模的数据流和实时事件处理。准备工作确保你的系统满足以下要求： • Java 8或更高版本已阅读全文

posted @ 2024-01-17 14:07 sober_zero 阅读(76) 评论(0) 推荐(0)

Hudi安装配置

摘要：简介 Hudi（Hadoop Upserts Delete and Incremental）是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发，同时保持数据的开源阅读全文

posted @ 2024-01-17 13:26 sober_zero 阅读(1036) 评论(0) 推荐(0)

Flume安装配置

摘要：简介 Apache Flume 是一个分布式、可靠、高可用的服务，用于有效地收集、聚合和移动大规模数据。Flume 主要用于大数据环境下的日志收集和数据传输，能够帮助用户实现数据流的可靠传输和集中处理。 flume安装配置解压安装包 tar -zxvf apache-flume-1.9.0-bin 阅读全文

posted @ 2024-01-17 12:33 sober_zero 阅读(176) 评论(0) 推荐(0)

2023年12月31日

Hadoop HA部署

摘要：实现Hadoop高可用性部署 Hadoop High Availability（HA）是一种设计模式，用于确保在Hadoop分布式文件系统（HDFS）和资源管理器（ResourceManager）等关键组件中发生故障时，系统能够继续提供服务。HA的目标是减小单点故障对系统可用性的影响，使Hadoop 阅读全文

posted @ 2023-12-31 17:14 sober_zero 阅读(218) 评论(0) 推荐(0)

2023年12月29日

【HBase】:Could not start ZK with 3 ZK servers in local mode deployment.

摘要： Could not start ZK with 3 ZK servers in local mode deployment. Aborting as clients (e.g. shell) will not be able to find this ZK quorum. 控制台报错：这个错误表明阅读全文

posted @ 2023-12-29 15:13 sober_zero 阅读(388) 评论(1) 推荐(1)

2023年12月27日

Sqoop连接数据库报错：Caused by: javax.net.ssl.SSLHandshakeException: No appropriate protocol (protocol is disabled or cipher suites are inappropriate)

摘要：控制台报错： [root@bigdata1 sqoop-1.4.2.bin__hadoop-2.0.0-alpha]# ./bin/sqoop list-databases --connect jdbc:mysql://192.168.45.10:3306 --username root --pas 阅读全文

posted @ 2023-12-27 19:53 sober_zero 阅读(395) 评论(0) 推荐(0)

Hive安装部署

摘要：引言 Apache Hive 是一款建立在 Hadoop 生态系统之上的数据仓库工具，它提供了一种 SQL 类似的查询语言（HiveQL）来查询和分析存储在 Hadoop 分布式文件系统（HDFS）中的大规模数据。Hive 的设计目标是让用户可以在大规模数据集上执行复杂的查询，而无需深入了解 Map 阅读全文

posted @ 2023-12-27 15:59 sober_zero 阅读(187) 评论(0) 推荐(0)

zyanch

公告