周进度报告2

一、本周进展回顾
（一）时间投入
本周持续深耕大数据及相关技术，总学习时长 22 小时。其中，大数据技术学习占 8 小时，Java Web 优化与拓展用 6 小时，Python 结合大数据探索花 4 小时，解决各类问题耗时 4 小时。
（二）学习与实践内容
大数据技术
HDFS 分布式文件系统：深入研究 NameNode、DataNode 交互，理解镜像文件、编辑日志文件作用。实操集群安全模式，尝试手动触发 HDFS - HA 自动故障转移，成功实现 SecondaryNameNode 接管，掌握故障恢复流程。
Yarn 与 MapReduce：掌握 Yarn 重要概念（ResourceManager、NodeManager 等）与工作机制，能清晰梳理作业提交、资源分配流程。跟着 MapReduce WordCount 案例实践，理解 Shuffle 机制在 Map 和 Reduce 阶段的数据传输与处理，成功运行程序统计文本单词数量；天气案例中，解析气象数据，实现温度、湿度等指标统计，输出分析结果。
Java Web：优化用户登录注册功能，接入达梦数据库，实现密码加密存储与验证，解决不同数据库适配问题。新增用户信息查询页面，用 JSP+Servlet+JavaBean 展示数据库中用户详情，完善前后台交互逻辑，修复前端页面样式适配不同浏览器的问题。
Python：学习 PySpark 基础，尝试读取本地文本文件，用 PySpark 进行简单单词计数，对比 MapReduce 实现方式，感受不同框架语法差异；编写 Python 脚本连接 HDFS，实现文件上传下载操作，探索与大数据生态集成的方法。
二、下周计划安排
（一）大数据方向
深入 MapReduce 高级特性，研究自定义 Partitioner、Combiner 使用场景与实现，实践复杂数据处理案例（如多维度数据统计）。启动 HBase 分布式数据库学习，了解其架构、数据模型，实操表创建、数据插入查询，结合 MapReduce 实现 HBase 数据导入导出。
（二）Java Web 与 Python
开发 Java Web 新模块，实现用户行为日志记录功能，将操作日志存入数据库，并用图表（ECharts）在前端展示统计结果；优化系统性能，减少数据库查询冗余，尝试引入连接池技术。Python 方面，深入 PySpark，学习 DataFrame 操作、Spark SQL，处理结构化数据，与 Java Web 项目集成，实现数据交互。
三、本周遇到的问题
（一）技术难题
MapReduce 天气案例中，自定义 Reducer 处理气象数据时，出现数据类型不匹配报错，排查发现是 Map 阶段输出键值类型与 Reducer 输入不兼容，重新定义序列化类型后解决，但耽误部分开发时间。
（二）知识融合
多技术栈（Java Web、Python、大数据框架）融合实践时，数据交互、技术衔接出现障碍，需适配不同框架 API，后续计划整理技术衔接文档，沉淀集成经验，提升多技术协同效率。

本周在大数据核心技术、多技术融合实践上有突破，解决问题的过程也加深了对知识的理解。下周将挑战更复杂的大数据场景，强化技术整合能力，持续拓宽技能深度与广度。

posted @ 2025-08-02 10:21 再报错就堵桥0 阅读(16) 评论(0) 收藏举报

刷新页面返回顶部

WMKQF

周进度报告2

公告