11.17日学习笔记

本周学习内容
(一)Hadoop 集群优化与实践
完全分布式模式配置
将 Hadoop 伪分布式模式升级为完全分布式模式,配置了多个 DataNode 节点,实现了数据的分布式存储和计算。
修改了 core-site.xml、hdfs-site.xml 和 mapred-site.xml 配置文件,配置了 HDFS 的 NameNode 和 DataNode,以及 MapReduce 的 JobTracker 和 TaskTracker。
成功启动了完全分布式模式下的 Hadoop 集群,通过 jps 命令验证了所有守护进程的运行状态。
YARN 资源管理器配置
学习了 Hadoop 的资源管理器 YARN,配置和管理 YARN 集群,优化资源分配。
修改了 yarn-site.xml 配置文件,设置了 YARN 的调度器类型(CapacityScheduler),并配置了队列的资源分配策略。
通过 YARN 的 Web 界面监控集群的资源使用情况,确保资源的合理分配和高效利用。
数据清洗和预处理程序
编写了一个基于 Hadoop 的数据清洗和预处理程序,处理实际的数据集。该程序使用 MapReduce 模型,实现了数据的去重、过滤和格式化。
在 Map 任务中,读取原始数据文件,过滤掉无效数据和重复数据,并将清洗后的数据输出到中间文件。
在 Reduce 任务中,对中间文件进行进一步处理,格式化数据并输出到最终结果文件。
(二)Python 项目实践
Web 爬虫项目
完成了一个简单的 Python Web 爬虫项目,使用 requests 和 BeautifulSoup 库爬取网页数据。
编写了一个爬虫脚本,爬取了某新闻网站的新闻标题和链接,并将数据存储到本地的 JSON 文件中。
学习了如何处理网页的动态加载内容,使用 Selenium 库模拟浏览器行为,获取动态加载的数据。
数据可视化
学习了 Python 的数据可视化库 matplotlib 和 seaborn,绘制简单的数据图表。
使用 matplotlib 绘制了柱状图和折线图,展示了新闻网站的新闻数量和发布趋势。
使用 seaborn 绘制了热力图,展示了不同类别新闻的分布情况。
(三)Java Web 项目优化
数据库查询优化
对 Java Web 项目中的数据库查询语句进行了优化,减少了数据库连接的频繁创建和销毁。
使用连接池技术(Apache DBCP)管理数据库连接,提高了数据库访问的效率。
优化了 SQL 查询语句,减少了不必要的全表扫描,提高了查询速度。
用户头像上传功能
添加了用户头像上传功能,支持图片的上传和存储。使用 Apache Commons FileUpload 组件处理文件上传请求。
在 UserServlet 中,添加了文件上传的处理逻辑,将用户头像存储到服务器的指定目录,并将头像路径保存到数据库中。
在用户详情页面(userDetail.jsp)中,动态显示用户头像。

posted @ 2025-11-17 18:32  头发少的文不识  阅读(0)  评论(0)    收藏  举报