周总结报告3

一、本周进展回顾
(一)时间投入
本周总学习时长 24 小时,大数据技术10 小时,Java Web7 小时,Python5 小时,问题解决2 小时(HBase 配置问题)
(二)学习与实践内容

大数据技术

HBase 入门:学习 HBase 架构与数据模型,实操创建表、插入数据,通过 Java API 实现批量导入;理解 RegionServer 分区机制。

MapReduce 优化:实现自定义 Partitioner 按业务规则分发数据,添加 Combiner 减少 Shuffle 阶段数据传输量。

Java Web

开发用户行为日志模块,记录登录、操作事件至达梦数据库,前端展示日活、操作热力图;引入 Druid 连接池,减少数据库连接开销,查询响应时间提升约 30%。

Python

学习 PySpark DataFrame,完成 CSV 数据清洗与聚合分析;尝试调用 Java Web 项目的 REST API,实现 PySpark 与后端数据交互,解决 JSON 解析格式冲突问题。

二、下周计划安排

大数据方向

学习 ZooKeeper 分布式协调服务,理解其在大数据生态中的作用;实操 HBase 二级索引优化查询效率。

探索 Flume 数据采集框架,配置日志数据从 Java Web 项目实时传输至 HDFS。

Java Web 与 Python

实现 Java Web 多条件查询功能,结合分页插件优化用户体验。

用 PySpark 分析 HBase 数据,生成可视化报告(Matplotlib),并与前端集成。

三、本周遇到的问题

技术难题

HBase 集群启动时 RegionServer 频繁崩溃,发现是 hbase-site.xml 配置与 Hadoop 版本不兼容,调整参数后解决。

PySpark 调用 Java API 时出现序列化错误,通过统一数据类型(String 转 UTF-8)规避。

多任务并行时易分心。

posted @ 2025-08-11 10:03  再报错就堵桥0  阅读(8)  评论(0)    收藏  举报