第四周假期进度报告(8.3 - 8.9)

一、本周做了什么?

本周学习重点转向大数据领域入门,时间分配略有调整,日均学习时间回调,但编码实践占比依然较高。

学习与探索:

学习时长: 日均 约2小时。主要精力投入在新知识体系的学习上。

敲代码: 日均 约1.5小时。核心活动:

大数据技术生态体系概览: 系统学习了大数据处理的基本流程(采集、存储、计算、分析、可视化)及核心组件角色。了解了 Hadoop 生态的核心地位以及常见工具(如 HDFS, MapReduce, YARN, Hive, HBase, Spark, Kafka, Flume)的定位和相互关系。对 Lambda 架构和 Kappa 架构有了初步概念。

Hadoop 深入: 重点聚焦 Hadoop 本身:

优势学习: 深入理解了 Hadoop 的核心优势:高容错性(数据块冗余存储)、高扩展性(横向添加节点)、高吞吐量(并行处理)、成本效益(普通硬件)、适合处理海量非结构化/半结构化数据。

安装模式实践: 在本地虚拟机环境中,动手实践了 Hadoop 的三种安装模式:

本地模式 (Local Mode): 仅用于开发调试,无需启动守护进程。成功运行了内置的 WordCount 示例程序验证环境。

伪分布式模式 (Pseudo-Distributed Mode): 模拟集群,所有守护进程(NameNode, DataNode, ResourceManager, NodeManager)运行在单节点。重点实践了此模式:完成了配置文件修改(core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml),格式化 HDFS,启动所有服务,通过 jps 验证进程,并通过 hdfs dfs 命令操作文件系统(mkdir, put, ls, cat),再次运行 WordCount 验证分布式计算框架。

全分布式模式 (Fully-Distributed Mode): 了解了其架构(主节点+多个从节点)、配置要点(SSH无密码登录、统一配置分发)和部署流程,作为知识储备,暂未在多节点环境实操。

解决问题: 日均耗时 约1小时。主要挑战集中在 伪分布式环境搭建:

配置文件参数理解错误导致服务启动失败(如端口冲突、路径权限不对)。

HDFS 格式化 (hdfs namenode -format) 的注意事项和误操作后的恢复。

运行 WordCount 时因输入/输出路径权限问题导致的 Permission denied 错误排查。

服务启动脚本 (start-dfs.sh, start-yarn.sh) 执行报错的环境变量问题。

辅导任务: 持续进行 约3个下午 的数学物理辅导,内容进入综合复习阶段。

其他: 无特殊安排。

二、下周计划?

目标巩固 Hadoop 基础,开始接触核心组件操作。

学习/编码: 保持 日均2小时 学习,确保 1小时以上 动手实践。

Hadoop 核心组件实践:

HDFS 深入操作: 熟练使用命令行 (hdfs dfs) 进行文件管理(上传、下载、移动、复制、删除、查看权限/副本数),理解 Block 大小、副本机制。

MapReduce 编程入门: 学习 MapReduce 编程模型(Map, Shuffle & Sort, Reduce)。尝试 使用 Java 或 Python (Hadoop Streaming) 编写一个简单的自定义 MapReduce 程序(如统计不同 IP 访问次数),打包并在伪分布式集群上运行。

YARN 基础理解: 了解 YARN 作为资源调度器的角色(ResourceManager, NodeManager, ApplicationMaster),通过 Web UI 监控作业运行状态。

大数据生态关联: 初步了解 Hive 是什么(数据仓库工具,SQL on Hadoop)及其基本用途。

辅导: 预计继续 2-3个下午。

三、本周遇到的问题?

环境配置复杂度高: 伪分布式 Hadoop 环境搭建过程繁琐且易出错。大量配置文件需要精确修改,对 Linux 环境变量、端口、权限、服务启动顺序等知识要求较高。一个小错误(如 XML 标签未闭合、路径写错)就可能导致整个服务无法启动,排查困难。

概念抽象理解难: 初次接触 分布式系统概念(如 NameNode/DataNode 职责、RPC 通信、容错机制) 时感觉抽象。仅靠文档理解不够直观,需结合实践和架构图反复琢磨。

日志信息庞杂: Hadoop 服务(尤其是 DataNode, NodeManager)的 日志信息量巨大且包含大量 DEBUG 信息,遇到问题时定位关键错误信息需要耐心和技巧(grep 是帮手)。

WordCount 权限坑: 运行示例程序时,因用户权限或 HDFS 目录所有权问题导致的 Permission denied 是高频错误,需熟悉 hdfs dfs -chmod 和 -chown 命令。

学习资源碎片化: 不同教程/文档在配置细节和版本适配(Hadoop 3.x vs 2.x)上存在差异,筛选和匹配适用于当前环境的信息耗费额外时间。

总结: 第四周正式踏入大数据领域,完成了 Hadoop 生态概览、核心优势理解及三种安装模式的实践(重点攻克伪分布式)。核心体会:Hadoop 环境搭建是深入学习的必经门槛,过程充满细节挑战但收获很大;理解分布式思想是掌握其精髓的关键。下周将深入 HDFS 操作和 MapReduce 编程,从“会用”向“理解其工作机制”迈进。持续攻坚!

posted @ 2025-08-11 20:45  最后的沙丘  阅读(13)  评论(0)    收藏  举报