第三周
Hadoop 作为大数据领域的核心框架,其生态系统包含 HDFS、MapReduce 和 YARN 三大核心组件,它们协同工作实现海量数据的存储与计算。HDFS(Hadoop 分布式文件系统)负责数据存储,采用主从架构,NameNode 作为主节点管理文件系统元数据,记录文件与数据块的映射关系,DataNode 作为从节点存储实际数据块,确保数据可靠性;MapReduce 是分布式计算模型,通过 “分而治之” 的思想将任务拆解为 Map 和 Reduce 阶段,结合 Shuffle 过程实现数据的排序与聚合;YARN(Yet Another Resource Negotiator)则承担资源调度与任务管理职责,协调集群资源分配给不同计算任务,保障集群高效运行。
在搭建伪分布式环境前,环境准备是关键环节,其中 JDK 的安装与配置尤为重要,因为 Hadoop 运行依赖 Java 环境,且版本兼容性直接影响框架稳定性。不同 Hadoop 版本对 JDK 版本要求不同,例如 Hadoop 2.x 系列推荐 JDK 1.7 或 1.8,Hadoop 3.x 系列则需 JDK 1.8 及以上,若版本不匹配可能出现类加载错误或功能异常。安装 JDK 后,需配置 JAVA_HOME 环境变量,在 Linux 系统中可通过编辑 /etc/profile 文件添加相关配置,随后执行source /etc/profile使配置生效,最后通过java -version命令验证 JDK 是否安装成功,若终端显示 JDK 版本为 1.8 及以上,则说明环境配置无误。
伪分布式搭建需按步骤操作,首先要修改 Hadoop 核心配置文件。core-site.xml 文件需配置 HDFS 默认文件系统地址,设置fs.defaultFS属性为hdfs://localhost:9000;hdfs-site.xml 文件需指定 HDFS 副本数量,伪分布式环境下设置dfs.replication为 1,同时配置 NameNode 和 DataNode 的数据存储目录;此外,还需修改 mapred-site.xml(需从模板文件复制并重命名)和 yarn-site.xml,分别指定 MapReduce 框架运行环境和 YARN 资源管理器地址。配置完成后,需格式化 HDFS 文件系统,执行hdfs namenode -format命令初始化 NameNode 元数据存储目录,若出现 “successfully formatted” 提示则格式化成功。但此过程中可能遇到权限问题,如 DataNode 目录无写入权限,需通过chmod命令修改目录权限;也可能因多次格式化导致集群 ID 不匹配,需删除 DataNode 存储目录后重新格式化。格式化完成后,通过start-dfs.sh和start-yarn.sh启动 HDFS 和 YARN 服务,最后执行hdfs dfs -ls /命令检查集群状态,若能正常显示 HDFS 根目录信息,说明伪分布式环境搭建成功,可开始进行后续的大数据实验与开发。