01 2024 档案
摘要:介绍 Apache Sqoop是一个用于在Apache Hadoop和关系型数据库之间传输数据的强大工具。它提供了一种高效的方式,让用户能够将结构化数据从关系型数据库导入到Hadoop的分布式文件系统(HDFS)中,并支持反向操作,将数据从Hadoop导出到关系型数据库。 Sqoop的主要功能包括数
阅读全文
摘要:简介 Hadoop的完全分布式模式是在多台机器上运行Hadoop集群,实现更高的性能和可伸缩性。以下是Hadoop完全分布式模式的简要安装部署。 环境准备 确保你的环境满足以下要求: • 操作系统:CentOS • Java:安装Java 8或更高版本 • SSH:确保所有节点之间可以通过SSH互相
阅读全文
摘要:简介 Apache Spark是一个开源的大数据处理框架,提供了高性能、通用的分布式数据处理能力。而YARN(Yet Another Resource Negotiator)是Hadoop生态系统的资源管理器,用于分配和管理集群资源。Spark on YARN是将Spark框架与YARN集成,以便更
阅读全文
摘要:简介 Apache Kafka是一款开源的分布式流处理平台,最初由LinkedIn开发,并于2011年开源。它是一个高吞吐量、可扩展、持久化的消息发布-订阅系统。Kafka被设计用于处理实时数据流,支持大规模的数据流和实时事件处理。 准备工作 确保你的系统满足以下要求: • Java 8或更高版本已
阅读全文
摘要:简介 Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源
阅读全文
摘要:简介 Apache Flume 是一个分布式、可靠、高可用的服务,用于有效地收集、聚合和移动大规模数据。Flume 主要用于大数据环境下的日志收集和数据传输,能够帮助用户实现数据流的可靠传输和集中处理。 flume安装配置 解压安装包 tar -zxvf apache-flume-1.9.0-bin
阅读全文

浙公网安备 33010602011771号