摘要:
Hadoop详解(10) - Hadoop HA高可用 HA概述 HA(High Availablity),即高可用(7*24小时不中断服务)。 实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 Hadoop2.0之前,在HDFS集群中N 阅读全文
posted @ 2021-12-14 15:26
莲藕淹
阅读(513)
评论(0)
推荐(0)
摘要:
Hadoop详解(09) - Hadoop新特性 Hadoop2.x新特性 远程主机之间的文件复制 scp实现两个远程主机之间的文件复制 推 push:scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt 拉 pull:scp -r root 阅读全文
posted @ 2021-12-14 15:25
莲藕淹
阅读(101)
评论(0)
推荐(0)
摘要:
Hadoop详解(07) - Hdfs数据压缩 概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在运行MR程序时,I/O操作、网络数据传输、 Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非 阅读全文
posted @ 2021-12-14 15:24
莲藕淹
阅读(690)
评论(0)
推荐(0)
摘要:
Hadoop详解(08) - Hadoop企业优化方案.docx MapReduce优化 MapReduce 跑的慢的原因 计算机性能:CPU、内存、磁盘健康、网络 I/O 操作优化 (1)数据倾斜 (2)Map和Reduce的Task数设置不合理 (3)Map运行时间太长,导致Reduce等待过久 阅读全文
posted @ 2021-12-14 15:24
莲藕淹
阅读(83)
评论(0)
推荐(0)
摘要:
Hadoop详解(06) - Yarn平台架构和资源调度器 Yarn平台架构 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn基本架构 YARN主要由ResourceManag 阅读全文
posted @ 2021-12-14 15:23
莲藕淹
阅读(193)
评论(0)
推荐(0)
摘要:
Hadoop详解(05) – MapReduce MapReduce概述 定义 MapReduce是一个分布式运算程序的编程框架,是用户 "基于Hadoop的数据分析应用" 开发的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并行运行在 阅读全文
posted @ 2021-12-14 15:22
莲藕淹
阅读(303)
评论(0)
推荐(0)
摘要:
Hadoop详解(04-1) - 基于hadoop3.1.3配置Windows10本地开发运行环境 环境准备 安装jdk环境 安装idea 配置maven 搭建好的hadoop集群 配置hadoop 解压hadoopo 将hadoop压缩包hadoop-3.1.3.tar.gz解压到本地任意目录 拷 阅读全文
posted @ 2021-12-14 15:20
莲藕淹
阅读(3826)
评论(0)
推荐(1)
摘要:
Hadoop详解(04)-Hdfs HDFS概述 HDFS产出背景及定义 背景:随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 阅读全文
posted @ 2021-12-14 15:19
莲藕淹
阅读(336)
评论(0)
推荐(0)

浙公网安备 33010602011771号