周进度报告2

一、本周进展回顾
(一)时间投入
本周持续深耕大数据及相关技术,总学习时长 22 小时 。其中,大数据技术学习占 8 小时,Java Web 优化与拓展用 6 小时,Python 结合大数据探索花 4 小时,解决各类问题耗时 4 小时 。
(二)学习与实践内容
大数据技术
HDFS 分布式文件系统:深入研究 NameNode、DataNode 交互,理解镜像文件、编辑日志文件作用。实操集群安全模式,尝试手动触发 HDFS - HA 自动故障转移,成功实现 SecondaryNameNode 接管,掌握故障恢复流程 。
Yarn 与 MapReduce:掌握 Yarn 重要概念(ResourceManager、NodeManager 等)与工作机制,能清晰梳理作业提交、资源分配流程。跟着 MapReduce WordCount 案例实践,理解 Shuffle 机制在 Map 和 Reduce 阶段的数据传输与处理,成功运行程序统计文本单词数量;天气案例中,解析气象数据,实现温度、湿度等指标统计,输出分析结果 。
Java Web:优化用户登录注册功能,接入达梦数据库,实现密码加密存储与验证,解决不同数据库适配问题。新增用户信息查询页面,用 JSP+Servlet+JavaBean 展示数据库中用户详情,完善前后台交互逻辑,修复前端页面样式适配不同浏览器的问题 。
Python:学习 PySpark 基础,尝试读取本地文本文件,用 PySpark 进行简单单词计数,对比 MapReduce 实现方式,感受不同框架语法差异;编写 Python 脚本连接 HDFS,实现文件上传下载操作,探索与大数据生态集成的方法 。
二、下周计划安排
(一)大数据方向
深入 MapReduce 高级特性,研究自定义 Partitioner、Combiner 使用场景与实现,实践复杂数据处理案例(如多维度数据统计) 。启动 HBase 分布式数据库学习,了解其架构、数据模型,实操表创建、数据插入查询,结合 MapReduce 实现 HBase 数据导入导出。
(二)Java Web 与 Python
开发 Java Web 新模块,实现用户行为日志记录功能,将操作日志存入数据库,并用图表(ECharts)在前端展示统计结果;优化系统性能,减少数据库查询冗余,尝试引入连接池技术 。Python 方面,深入 PySpark,学习 DataFrame 操作、Spark SQL,处理结构化数据,与 Java Web 项目集成,实现数据交互 。
三、本周遇到的问题
(一)技术难题
MapReduce 天气案例中,自定义 Reducer 处理气象数据时,出现数据类型不匹配报错,排查发现是 Map 阶段输出键值类型与 Reducer 输入不兼容,重新定义序列化类型后解决,但耽误部分开发时间 。
(二)知识融合
多技术栈(Java Web、Python、大数据框架)融合实践时,数据交互、技术衔接出现障碍,需适配不同框架 API,后续计划整理技术衔接文档,沉淀集成经验,提升多技术协同效率 。

本周在大数据核心技术、多技术融合实践上有突破,解决问题的过程也加深了对知识的理解。下周将挑战更复杂的大数据场景,强化技术整合能力,持续拓宽技能深度与广度。

posted @ 2025-08-02 10:21  再报错就堵桥0  阅读(16)  评论(0)    收藏  举报