Hadoop_Review - 文章分类 - 溪水静幽

HDFS读写数据流程

摘要：Pipeline管道 Pipeline是HDFS在上传文件写数据过程中采用的一种数据传输方式。客户端将数据块写入第一个数据节点，第一个数据节点保存数据之后再将块复制到第二个数据节点，后者保存后将其复制到第三个数据节点。为什么datanode之间采用pipeline线性传输，而不是一次给三个dat 阅读全文

posted @ 2025-04-12 21:54 溪水静幽阅读(19) 评论(0) 推荐(0)

MapReduce的Shuffle机制

摘要：Shuffle 机制是指在分布式计算中用于重新分配数据并进行合并的过程。 MR工作流程 1. Map 阶段：在 MapReduce框架中，任务首先会被划分为多个 Map 任务，每个 Map 任务负责处理输入数据的一部分。在处理过程中，Map 任务会生成键值对（key-value pairs），其中键阅读全文

posted @ 2024-12-28 19:40 溪水静幽阅读(212) 评论(0) 推荐(0)

yarn杀掉正在运行的任务

摘要：yarn application -list # 查看当前任务列表 yarn application -kill application_id # 杀掉某一任务阅读全文

posted @ 2024-12-28 18:27 溪水静幽阅读(41) 评论(0) 推荐(0)

hdfs命令

摘要：HDFS是一个分布式文件，旨在运行在大规模集群上。它的设计目标是存储超大规模数据集，并提供高吞吐量的数据访问。HDFS将文件划分为多个数据块，并将这些数据块分布存储在集群中的多个节点上，以实现数据的并行处理和高可靠性。 HDFS的架构包含组件： NameNode：负责管理文件系统的命名空间、存储文件阅读全文

posted @ 2024-12-13 22:14 溪水静幽阅读(40) 评论(0) 推荐(0)

集群时间同步

摘要：同步方式机器可以访问网络，这种定时同步网络时间从节点同步主节点的时间，其他机器不连接网络，只从主节点同步检查时区 date -R 如果不是+8，需要先设置机器的时区 rm -f /etc/localtime ln -s /usr/share/zoneinfo/Asia/Shanghai /et 阅读全文

posted @ 2024-12-11 21:47 溪水静幽阅读(24) 评论(0) 推荐(0)

hadoop分布式集群部署

摘要：修改主机名 #hostnamectl set-hostname master #hostnamectl set-hostname slaveone #hostnamectl set-hostname slavetwo 2.修改IP地址和主机名的映射关系 vim /etc/hosts 添加映射 192 阅读全文

posted @ 2024-12-01 23:24 溪水静幽阅读(21) 评论(0) 推荐(0)

文章分类 - Hadoop_Review