软件工程学习日志2025.9.29
📊 HBase知识梳理 | 每日技术学习笔记
💡 今日学习重点:HBase核心概念解析
一、HBase基础认知
• 本质:分布式列式数据库(非关系型)
• 定位:解决Hadoop无法满足的实时数据处理需求
• 特点:高扩展性、高可用性、强一致性
二、核心架构要点总结
数据模型关键点:
• 四维坐标:行键(Row Key) + 列族(Column Family) + 列限定符 + 时间戳
• 存储特性:支持多版本数据,按时间戳索引
• 索引机制:仅支持行键索引,不支持直接按时间戳查询
三层寻址架构:
Zookeeper → -ROOT-表(单Region)→ .META.表 → 目标Region
• 客户端缓存位置信息,优化寻址性能
• .META.表全部Region常驻内存加速访问
Region管理机制:
• 单个Region不会被拆分到多个Region服务器
• Master负责Region分裂/合并后的分布调整
• 支持Region服务器间的负载均衡
三、故障恢复与数据一致性
• HLog保障:每个Region服务器独立HLog文件
• Zookeeper监控:实时监测Region服务器状态
• Master恢复:处理故障节点的HLog文件
四、性能优化策略
• StoreFile管理:定期合并减少文件数量
• 合并时机:达到阈值才触发,避免资源浪费
• 写入优化:合理设计Row Key避免热点问题
🎯 实践启示
- Row Key设计是性能关键,需考虑数据分布均衡
- 预分区策略可有效防止写入热点
- 缓存机制与合并策略需要根据业务特点调整

浙公网安备 33010602011771号