周总结报告3
一、本周进展回顾
(一)时间投入
本周总学习时长 24 小时,大数据技术10 小时,Java Web7 小时,Python5 小时,问题解决2 小时(HBase 配置问题)
(二)学习与实践内容
大数据技术
HBase 入门:学习 HBase 架构与数据模型,实操创建表、插入数据,通过 Java API 实现批量导入;理解 RegionServer 分区机制。
MapReduce 优化:实现自定义 Partitioner 按业务规则分发数据,添加 Combiner 减少 Shuffle 阶段数据传输量。
Java Web
开发用户行为日志模块,记录登录、操作事件至达梦数据库,前端展示日活、操作热力图;引入 Druid 连接池,减少数据库连接开销,查询响应时间提升约 30%。
Python
学习 PySpark DataFrame,完成 CSV 数据清洗与聚合分析;尝试调用 Java Web 项目的 REST API,实现 PySpark 与后端数据交互,解决 JSON 解析格式冲突问题。
二、下周计划安排
大数据方向
学习 ZooKeeper 分布式协调服务,理解其在大数据生态中的作用;实操 HBase 二级索引优化查询效率。
探索 Flume 数据采集框架,配置日志数据从 Java Web 项目实时传输至 HDFS。
Java Web 与 Python
实现 Java Web 多条件查询功能,结合分页插件优化用户体验。
用 PySpark 分析 HBase 数据,生成可视化报告(Matplotlib),并与前端集成。
三、本周遇到的问题
技术难题
HBase 集群启动时 RegionServer 频繁崩溃,发现是 hbase-site.xml 配置与 Hadoop 版本不兼容,调整参数后解决。
PySpark 调用 Java API 时出现序列化错误,通过统一数据类型(String 转 UTF-8)规避。
多任务并行时易分心。

浙公网安备 33010602011771号