摘要:
简介 Hadoop的完全分布式模式是在多台机器上运行Hadoop集群,实现更高的性能和可伸缩性。以下是Hadoop完全分布式模式的简要安装部署。 环境准备 确保你的环境满足以下要求: • 操作系统:CentOS • Java:安装Java 8或更高版本 • SSH:确保所有节点之间可以通过SSH互相 阅读全文
posted @ 2024-01-17 15:13
sober_zero
阅读(91)
评论(0)
推荐(0)
摘要:
简介 Apache Spark是一个开源的大数据处理框架,提供了高性能、通用的分布式数据处理能力。而YARN(Yet Another Resource Negotiator)是Hadoop生态系统的资源管理器,用于分配和管理集群资源。Spark on YARN是将Spark框架与YARN集成,以便更 阅读全文
posted @ 2024-01-17 14:24
sober_zero
阅读(43)
评论(0)
推荐(0)
摘要:
简介 Apache Kafka是一款开源的分布式流处理平台,最初由LinkedIn开发,并于2011年开源。它是一个高吞吐量、可扩展、持久化的消息发布-订阅系统。Kafka被设计用于处理实时数据流,支持大规模的数据流和实时事件处理。 准备工作 确保你的系统满足以下要求: • Java 8或更高版本已 阅读全文
posted @ 2024-01-17 14:07
sober_zero
阅读(62)
评论(0)
推荐(0)
摘要:
简介 Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源 阅读全文
posted @ 2024-01-17 13:26
sober_zero
阅读(864)
评论(0)
推荐(0)
摘要:
简介 Apache Flume 是一个分布式、可靠、高可用的服务,用于有效地收集、聚合和移动大规模数据。Flume 主要用于大数据环境下的日志收集和数据传输,能够帮助用户实现数据流的可靠传输和集中处理。 flume安装配置 解压安装包 tar -zxvf apache-flume-1.9.0-bin 阅读全文
posted @ 2024-01-17 12:33
sober_zero
阅读(154)
评论(0)
推荐(0)

浙公网安备 33010602011771号