周总结报告6

一、本周进展回顾
(一)时间投入
本周总学习时长 30 小时,分配如下:

大数据技术:14 小时(Spark、Flink)
Java Web:8 小时(WebSocket 模块优化、系统安全加固)
Python:6 小时(用户行为数据聚类、结果可视化)
问题解决:2 小时(Spark 任务资源分配、Flink 作业延迟)
(二)学习与实践内容
大数据技术
Spark:搭建 Spark 集群,学习 RDD 的概念、创建与转换操作,实践使用 Spark Core 进行数据处理;学习 Spark SQL,将 DataFrame 与 RDD 结合,进行结构化数据查询与分析;尝试编写 Spark Streaming 程序,处理实时数据流。
Flink:安装部署 Flink 集群,了解 Flink 的架构与核心组件;编写简单的 Flink 作业,实现数据的实时处理与计算;对比 Spark Streaming,体会 Flink 在低延迟、 Exactly-Once 语义等方面的优势。
Java Web
对 WebSocket 模块进行优化,实现消息按类型过滤,只有符合用户订阅条件的日志消息才会推送到前端;添加历史消息存储功能,将一定时间范围内的消息保存到数据库,方便用户回溯查看;进行系统安全加固,修复了几个 SQL 注入和 XSS 漏洞,增强了应用的安全性。
Python
使用 K-means 算法对清洗后的用户行为数据进行聚类分析,根据用户的访问频率、操作类型等特征将用户分为不同群体;利用 Matplotlib 和 Seaborn 对聚类结果进行可视化展示,生成直观的图表(如雷达图、柱状图),清晰呈现不同用户群体的行为特点。
二、下周计划安排
大数据方向:深入学习 Spark 和 Flink 的高级特性,如 Spark 的调优、Flink 的状态管理等;尝试将 Spark 和 Flink 应用到实际的大数据处理场景中,解决更复杂的数据处理问题。
Java Web 与 Python:对 Java Web 系统进行全面的测试与优化,确保系统稳定高效运行;结合聚类分析结果,用 Python 开发个性化推荐功能,集成到 Java Web 应用中。
三、本周遇到的问题
技术难题:Spark 任务在处理大规模数据时,资源分配不合理导致任务执行缓慢,通过调整 Executor 内存和 CPU 核心数解决;Flink 作业存在一定的延迟,优化作业的并行度和算子链后延迟降低。
学习反思:在应用 Spark 和 Flink 解决实际问题时,发现自己对技术的掌握还不够熟练,需要更多的实践来加深理解和运用能力。

posted @ 2025-09-09 10:52  再报错就堵桥0  阅读(9)  评论(0)    收藏  举报