假期周进度报告 4

前三天每天聚焦 YARN 资源调度。研读《Hadoop 权威指南》,掌握 FIFO、Capacity Scheduler、Fair Scheduler 三种调度器的原理特点。再修改yarn-site.xml配置,依次切换调度器类型,观察集群资源分配变化。最后编写不同资源需求的 MapReduce 作业,提交到对应集群,通过 YARN 的 8088 端口 Web 界面分析执行时间和资源利用率,总结各调度器适用场景。​
周四起完成 Hive 安装配置:下载安装包、配置环境变量与hive-site.xml,连接 MySQL 元数据存储。随后学习内部表、外部表、分区表等基础概念。接着实操练习,创建各类表,加载本地及 HDFS 数据,执行 SELECT、GROUP BY 等 HQL 查询。最后 1 小时对比 Hive 查询与 MapReduce 实现的性能差异,理解 Hive 工作机制。​
周末集中开发电商用户行为数据分析案例。首日完成需求分析与方案设计,明确数据清洗规则、统计指标(用户活跃度、商品浏览量)及输出格式。编写代码实现数据清洗和统计分析两个 Job,并处理 Job 间数据传递。次日调试优化代码,解决运行错误和数据倾斜等性能问题。​
每天晚上总结当日学习内容,记录重点知识、操作步骤及问题解决方案。周日下午整合本周与前期知识,绘制 Hadoop 生态架构图,梳理 YARN 调度和 Hive 数据处理流程,更新命令手册和代码示例库,形成完整知识体系文档,方便后续复习查阅。

posted @ 2025-08-23 16:27  一如初见233  阅读(7)  评论(0)    收藏  举报