假期周进度报告 3
本周在 Hadoop 学习上累计投入 20 小时,在基础学习上进一步深化。其中理论深化学习 ,重点研读《Hadoop 权威指南》中 HDFS 高级特性与 MapReduce 优化内容,学习了 HDFS 安全模式、快照功能及 MapReduce 的 Shuffle 优化策略;代码实操 ,完成 HDFS API 编程实践,编写调试数据去重、单表关联等 3 个 MapReduce 程序,还用 Hadoop Streaming 实现 Python 版词频统计;,集中在程序调试、集群配置优化和 API 调用错误处理。
实践中成功搭建 2 节点伪分布式集群,完成集群状态监控、节点动态添加等操作。对上周 WordCount 程序优化,添加 Combiner 组件后效率提升约 20%。
下周计划:深入 YARN 实践,学习资源调度策略并测试不同策略影响;入门 Hive 工具,完成安装配置及基础 HQL 查询;开发电商用户行为数据的 MapReduce 综合案例,练习多 Job 串联
本周遇到三个主要问题:一是 HDFS 文件权限冲突,通过代码设置权限或修改配置文件解决,认识到权限管理的重要性;二是 MapReduce 内存溢出,调整mapred-site.xml中堆内存参数后解决,明白需按数据规模配置资源;三是集群启动不稳定,因防火墙阻碍通信,关闭防火墙并配置 SSH 信任后恢复,意识到网络通畅和节点信任是稳定运行基础。
本周学习让我深刻体会到 Hadoop 的实践性,下周将重点突破 YARN 调度机制和 Hive 工具,持续构建技术知识体系。
 
                     
                    
                 
                    
                
 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号