会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
sword861417845
博客园
首页
新随笔
联系
订阅
管理
2026年2月21日
260218
摘要: 0
阅读全文
posted @ 2026-02-21 22:23 sword_kong
阅读(2)
评论(0)
推荐(0)
260216
摘要: 0
阅读全文
posted @ 2026-02-21 00:41 sword_kong
阅读(2)
评论(0)
推荐(0)
2026年2月18日
260212
摘要: 0
阅读全文
posted @ 2026-02-18 12:59 sword_kong
阅读(3)
评论(0)
推荐(0)
2026年1月1日
3
摘要: 3
阅读全文
posted @ 2026-01-01 12:48 sword_kong
阅读(7)
评论(0)
推荐(0)
2025年9月14日
第八周
摘要: Hadoop 集群的稳定运行离不开完善的监控体系,搭建涵盖集群负载监控与日志收集的监控系统,可实时掌握集群运行状态,及时发现潜在问题。在集群负载监控方面,Ganglia 是常用的分布式监控工具,能够收集并展示集群中各节点的 CPU 使用率、内存占用量、磁盘 IO 速率、网络流量等关键指标,帮助运维人
阅读全文
posted @ 2025-09-14 19:00 sword_kong
阅读(14)
评论(0)
推荐(0)
2025年9月12日
第七周
摘要: Hive 作为 Hadoop 生态圈的数据仓库工具,基于 HDFS 存储数据,通过 SQL-like 语言(HQL)将数据查询请求转换为 MapReduce 或 Spark 任务,实现对海量数据的离线分析。在 Hive 中,表分为内部表和外部表,二者在数据管理和生命周期上存在显著区别。内部表(Man
阅读全文
posted @ 2025-09-12 20:48 sword_kong
阅读(12)
评论(0)
推荐(0)
2025年9月9日
第六周
摘要: YARN 作为 Hadoop 的资源管理与任务调度框架,其核心组件包括 ResourceManager、NodeManager 和 ApplicationMaster,它们协同工作实现集群资源的高效分配与任务管理。ResourceManager 作为 YARN 的核心,运行在主节点上,负责整个集群的
阅读全文
posted @ 2025-09-09 20:57 sword_kong
阅读(9)
评论(0)
推荐(0)
2025年9月7日
第五周
摘要: WordCount 作为 MapReduce 的经典案例,是理解分布式计算流程的入门示例,其核心是通过 Mapper 和 Reducer 类的重写实现单词计数功能。在 Mapper 类中,需继承org.apache.hadoop.mapreduce.Mapper类,并重写map方法。map方法的输入
阅读全文
posted @ 2025-09-07 21:33 sword_kong
阅读(11)
评论(0)
推荐(0)
2025年9月5日
第四周
摘要: HDFS 的设计原理围绕海量数据存储的可靠性、高效性和可扩展性展开,其中分块存储和副本机制是核心特性。HDFS 默认将文件分割为 128MB 的数据块进行存储(可通过dfs.blocksize参数调整),这一设计既避免了小文件占用过多元数据空间,又能减少磁盘寻道时间,提升数据读写效率。与传统 RAI
阅读全文
posted @ 2025-09-05 20:47 sword_kong
阅读(7)
评论(0)
推荐(0)
2025年9月3日
第三周
摘要: Hadoop 作为大数据领域的核心框架,其生态系统包含 HDFS、MapReduce 和 YARN 三大核心组件,它们协同工作实现海量数据的存储与计算。HDFS(Hadoop 分布式文件系统)负责数据存储,采用主从架构,NameNode 作为主节点管理文件系统元数据,记录文件与数据块的映射关系,Da
阅读全文
posted @ 2025-09-03 22:55 sword_kong
阅读(11)
评论(0)
推荐(0)
下一页
公告