11.17日学习笔记

本周学习内容
（一）Hadoop 集群优化与实践
完全分布式模式配置
将 Hadoop 伪分布式模式升级为完全分布式模式，配置了多个 DataNode 节点，实现了数据的分布式存储和计算。
修改了 core-site.xml、hdfs-site.xml 和 mapred-site.xml 配置文件，配置了 HDFS 的 NameNode 和 DataNode，以及 MapReduce 的 JobTracker 和 TaskTracker。
成功启动了完全分布式模式下的 Hadoop 集群，通过 jps 命令验证了所有守护进程的运行状态。
YARN 资源管理器配置
学习了 Hadoop 的资源管理器 YARN，配置和管理 YARN 集群，优化资源分配。
修改了 yarn-site.xml 配置文件，设置了 YARN 的调度器类型（CapacityScheduler），并配置了队列的资源分配策略。
通过 YARN 的 Web 界面监控集群的资源使用情况，确保资源的合理分配和高效利用。
数据清洗和预处理程序
编写了一个基于 Hadoop 的数据清洗和预处理程序，处理实际的数据集。该程序使用 MapReduce 模型，实现了数据的去重、过滤和格式化。
在 Map 任务中，读取原始数据文件，过滤掉无效数据和重复数据，并将清洗后的数据输出到中间文件。
在 Reduce 任务中，对中间文件进行进一步处理，格式化数据并输出到最终结果文件。
（二）Python 项目实践
Web 爬虫项目
完成了一个简单的 Python Web 爬虫项目，使用 requests 和 BeautifulSoup 库爬取网页数据。
编写了一个爬虫脚本，爬取了某新闻网站的新闻标题和链接，并将数据存储到本地的 JSON 文件中。
学习了如何处理网页的动态加载内容，使用 Selenium 库模拟浏览器行为，获取动态加载的数据。
数据可视化
学习了 Python 的数据可视化库 matplotlib 和 seaborn，绘制简单的数据图表。
使用 matplotlib 绘制了柱状图和折线图，展示了新闻网站的新闻数量和发布趋势。
使用 seaborn 绘制了热力图，展示了不同类别新闻的分布情况。
（三）Java Web 项目优化
数据库查询优化
对 Java Web 项目中的数据库查询语句进行了优化，减少了数据库连接的频繁创建和销毁。
使用连接池技术（Apache DBCP）管理数据库连接，提高了数据库访问的效率。
优化了 SQL 查询语句，减少了不必要的全表扫描，提高了查询速度。
用户头像上传功能
添加了用户头像上传功能，支持图片的上传和存储。使用 Apache Commons FileUpload 组件处理文件上传请求。
在 UserServlet 中，添加了文件上传的处理逻辑，将用户头像存储到服务器的指定目录，并将头像路径保存到数据库中。
在用户详情页面（userDetail.jsp）中，动态显示用户头像。

posted @ 2025-11-17 18:32 头发少的文不识阅读(5) 评论(0) 收藏举报

刷新页面返回顶部

11.17日学习笔记

公告