HDFS读写数据流程
摘要:Pipeline管道 Pipeline是HDFS在上传文件写数据过程中采用的一种数据传输方式。 客户端将数据块写入第一个数据节点,第一个数据节点保存数据之后再将块复制到第二个数据节点,后者保存后将其复制到第三个数据节点。 为什么datanode之间采用pipeline线性传输,而不是一次给三个dat
阅读全文
posted @
2025-04-12 21:54
溪水静幽
阅读(19)
推荐(0)
MapReduce的Shuffle机制
摘要:Shuffle 机制是指在分布式计算中用于重新分配数据并进行合并的过程。 MR工作流程 1. Map 阶段:在 MapReduce框架中,任务首先会被划分为多个 Map 任务,每个 Map 任务负责处理输入数据的一部分。在处理过程中,Map 任务会生成键值对(key-value pairs),其中键
阅读全文
posted @
2024-12-28 19:40
溪水静幽
阅读(212)
推荐(0)
yarn杀掉正在运行的任务
摘要:yarn application -list # 查看当前任务列表 yarn application -kill application_id # 杀掉某一任务
阅读全文
posted @
2024-12-28 18:27
溪水静幽
阅读(41)
推荐(0)
hdfs命令
摘要:HDFS是一个分布式文件,旨在运行在大规模集群上。它的设计目标是存储超大规模数据集,并提供高吞吐量的数据访问。HDFS将文件划分为多个数据块,并将这些数据块分布存储在集群中的多个节点上,以实现数据的并行处理和高可靠性。 HDFS的架构包含组件: NameNode:负责管理文件系统的命名空间、存储文件
阅读全文
posted @
2024-12-13 22:14
溪水静幽
阅读(40)
推荐(0)
集群时间同步
摘要:同步方式 机器可以访问网络,这种定时同步网络时间 从节点同步主节点的时间,其他机器不连接网络,只从主节点同步 检查时区 date -R 如果不是+8,需要先设置机器的时区 rm -f /etc/localtime ln -s /usr/share/zoneinfo/Asia/Shanghai /et
阅读全文
posted @
2024-12-11 21:47
溪水静幽
阅读(24)
推荐(0)
hadoop分布式集群部署
摘要:修改主机名 #hostnamectl set-hostname master #hostnamectl set-hostname slaveone #hostnamectl set-hostname slavetwo 2.修改IP地址和主机名的映射关系 vim /etc/hosts 添加映射 192
阅读全文
posted @
2024-12-01 23:24
溪水静幽
阅读(21)
推荐(0)