周总结报告3

一、本周进展回顾
（一）时间投入
本周总学习时长 24 小时，大数据技术10 小时，Java Web7 小时，Python5 小时，问题解决2 小时（HBase 配置问题）
（二）学习与实践内容

大数据技术

HBase 入门：学习 HBase 架构与数据模型，实操创建表、插入数据，通过 Java API 实现批量导入；理解 RegionServer 分区机制。

MapReduce 优化：实现自定义 Partitioner 按业务规则分发数据，添加 Combiner 减少 Shuffle 阶段数据传输量。

Java Web

开发用户行为日志模块，记录登录、操作事件至达梦数据库，前端展示日活、操作热力图；引入 Druid 连接池，减少数据库连接开销，查询响应时间提升约 30%。

Python

学习 PySpark DataFrame，完成 CSV 数据清洗与聚合分析；尝试调用 Java Web 项目的 REST API，实现 PySpark 与后端数据交互，解决 JSON 解析格式冲突问题。

二、下周计划安排

大数据方向

学习 ZooKeeper 分布式协调服务，理解其在大数据生态中的作用；实操 HBase 二级索引优化查询效率。

探索 Flume 数据采集框架，配置日志数据从 Java Web 项目实时传输至 HDFS。

Java Web 与 Python

实现 Java Web 多条件查询功能，结合分页插件优化用户体验。

用 PySpark 分析 HBase 数据，生成可视化报告（Matplotlib），并与前端集成。

三、本周遇到的问题

技术难题

HBase 集群启动时 RegionServer 频繁崩溃，发现是 hbase-site.xml 配置与 Hadoop 版本不兼容，调整参数后解决。

PySpark 调用 Java API 时出现序列化错误，通过统一数据类型（String 转 UTF-8）规避。

多任务并行时易分心。

posted @ 2025-08-11 10:03 再报错就堵桥0 阅读(8) 评论(0) 收藏举报

刷新页面返回顶部

WMKQF