第三周

Hadoop 作为大数据领域的核心框架，其生态系统包含 HDFS、MapReduce 和 YARN 三大核心组件，它们协同工作实现海量数据的存储与计算。HDFS（Hadoop 分布式文件系统）负责数据存储，采用主从架构，NameNode 作为主节点管理文件系统元数据，记录文件与数据块的映射关系，DataNode 作为从节点存储实际数据块，确保数据可靠性；MapReduce 是分布式计算模型，通过 “分而治之” 的思想将任务拆解为 Map 和 Reduce 阶段，结合 Shuffle 过程实现数据的排序与聚合；YARN（Yet Another Resource Negotiator）则承担资源调度与任务管理职责，协调集群资源分配给不同计算任务，保障集群高效运行。
在搭建伪分布式环境前，环境准备是关键环节，其中 JDK 的安装与配置尤为重要，因为 Hadoop 运行依赖 Java 环境，且版本兼容性直接影响框架稳定性。不同 Hadoop 版本对 JDK 版本要求不同，例如 Hadoop 2.x 系列推荐 JDK 1.7 或 1.8，Hadoop 3.x 系列则需 JDK 1.8 及以上，若版本不匹配可能出现类加载错误或功能异常。安装 JDK 后，需配置 JAVA_HOME 环境变量，在 Linux 系统中可通过编辑 /etc/profile 文件添加相关配置，随后执行source /etc/profile使配置生效，最后通过java -version命令验证 JDK 是否安装成功，若终端显示 JDK 版本为 1.8 及以上，则说明环境配置无误。
伪分布式搭建需按步骤操作，首先要修改 Hadoop 核心配置文件。core-site.xml 文件需配置 HDFS 默认文件系统地址，设置fs.defaultFS属性为hdfs://localhost:9000；hdfs-site.xml 文件需指定 HDFS 副本数量，伪分布式环境下设置dfs.replication为 1，同时配置 NameNode 和 DataNode 的数据存储目录；此外，还需修改 mapred-site.xml（需从模板文件复制并重命名）和 yarn-site.xml，分别指定 MapReduce 框架运行环境和 YARN 资源管理器地址。配置完成后，需格式化 HDFS 文件系统，执行hdfs namenode -format命令初始化 NameNode 元数据存储目录，若出现 “successfully formatted” 提示则格式化成功。但此过程中可能遇到权限问题，如 DataNode 目录无写入权限，需通过chmod命令修改目录权限；也可能因多次格式化导致集群 ID 不匹配，需删除 DataNode 存储目录后重新格式化。格式化完成后，通过start-dfs.sh和start-yarn.sh启动 HDFS 和 YARN 服务，最后执行hdfs dfs -ls /命令检查集群状态，若能正常显示 HDFS 根目录信息，说明伪分布式环境搭建成功，可开始进行后续的大数据实验与开发。

posted @ 2025-09-03 22:55 sword_kong 阅读(9) 评论(0) 收藏举报

刷新页面返回顶部

sword861417845

第三周

公告