上一页 1 2 3 4 5 6 ··· 14 下一页
摘要: 何为 Compaction 通过 MemStore 的 Flush 机制会生成一个个 HFile 小文件,HFile 小文件如果数量太多会影响读取性能。为了提高读取效率,就需要通过 Compaction 机制将小文件 HFile 合并成大文件,提升读取效率。 Compaction 的作用 在 HBa 阅读全文
posted @ 2022-01-28 20:10 追こするれい的人 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 什么是 MemStore Flush 机制 Region 的 写缓存 MemStore 将数据写入到磁盘中并产生 HFile 文件的过程叫做 MemStore Flush 机制 触发 MemStore Flush 机制的情况 客户端手工触发 Flush 机制 执行 Flush 命令将 Table 表 阅读全文
posted @ 2022-01-28 19:56 追こするれい的人 阅读(119) 评论(0) 推荐(0) 编辑
摘要: HBase 读写数据流程 HBase 读数据流程 客户端创建 Connection 连接对象,通过加载的 hbase-site.xml 配置文件获得 zk 集群地址 客户端连接到 zk 集群然后去读取 zk 目录 /hbase/meta-region-server 的配置信息,找到 meta 表存放 阅读全文
posted @ 2022-01-13 20:24 追こするれい的人 阅读(116) 评论(0) 推荐(0) 编辑
摘要: HRegionServer 内部机制 WALs(写日志) WALs 即 Write Ahead Log,在早期版本中称为 HLog,它是 HDFS 上的一个文件,所有写操作都会先保证将数据写入这个 Log 文件后(类似于 Redis 的 AOF 文件),才会真正更新 MemStore(写缓存),最后 阅读全文
posted @ 2022-01-13 20:04 追こするれい的人 阅读(86) 评论(0) 推荐(0) 编辑
摘要: HBase RowKey 设计 设计 RowKey 的目的 HBase 中一条数据的唯一标识就是 RowKey,类似于关系型数据库中的主键,HBase 中的数据是根据 Row Key 的字典顺序来排序的。 那么这条数据存储于哪个分区,取决于 Rowkey 处于哪一个预分区的区间内,设计 Rowkey 阅读全文
posted @ 2022-01-13 19:35 追こするれい的人 阅读(105) 评论(0) 推荐(0) 编辑
摘要: HBase 命令行客户端过滤器、 在 HBase 中,get 和 scan 命令都可以使用过滤器来设置输出的范围,类似 SQL 里的 Where 查询条件。 show_filter 命令(查看 HBase 支持的过滤器类型) hbase(main):016:0> show_filters ### 行 阅读全文
posted @ 2022-01-13 19:12 追こするれい的人 阅读(284) 评论(0) 推荐(0) 编辑
摘要: HBase 命令行客户端操作 启动 HBase 命令行客户端 [root@node-01 bin]# hbase shell HBase 命令行帮助 hbase(main):004:0> help 通用命令 whoami 命令(查看当前用户) hbase(main):004:0> whoami st 阅读全文
posted @ 2022-01-13 18:58 追こするれい的人 阅读(338) 评论(0) 推荐(0) 编辑
摘要: HBase 数据模型 逻辑视图 HBase 逻辑视图(表结构)如下: 基本概念术语 Table(表) HBase 一个表由多行组成 Row Key(行键) HBase 中表中一行的唯一标识(类似于关系表中的主键)。一张表中所有行都按照行键(rowkey)的字典序由小到大排序。 Row(行) HBas 阅读全文
posted @ 2022-01-13 18:37 追こするれい的人 阅读(231) 评论(0) 推荐(0) 编辑
摘要: Client 客户端包含访问 HBase 的接口,同时在缓存中维护着已经访问过的 Region 位置信息,用来加快后续数据访问过程 Zookeeper 在 HBase 系统中,ZooKeeper 扮演着非常重要的角色 实现 HMaster 高可用:通常情况下系统中只有一个 HMaster 工作,一旦 阅读全文
posted @ 2022-01-04 16:01 追こするれい的人 阅读(62) 评论(0) 推荐(0) 编辑
摘要: Spark 集群安装部署 安装准备 Spark 集群和 Hadoop 类似,也是采用主从架构,Spark 中的主服务器进程就叫 Master(standalone 模式),从服务器进程叫 Worker Spark 集群规划如下: node-01:Master node-02:Worker node- 阅读全文
posted @ 2022-01-04 15:55 追こするれい的人 阅读(83) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 14 下一页