随笔分类 - HBASE
摘要:1 StoreFile Compaction 由于memstore每次刷写都会生成一个新的HFile,且同一个字段的不同版本(timestamp)和不同类型(Put/Delete)有可能会分布在不同的HFile中,因此查询时需要遍历所有的HFile。为了减少HFile的个数,以及清理掉过期和删除的数
阅读全文
posted @ 2021-09-03 23:36
秋华
摘要:创建类HBase_DML 1 插入数据 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.HBaseConfiguratio
阅读全文
posted @ 2021-09-03 23:32
秋华
摘要:1)整体流程 2)Merge细节 读流程 1)Client先访问zookeeper,获取hbase:meta表位于哪个Region Server。 2)访问对应的Region Server,获取hbase:meta表,根据读请求的namespace:table/rowkey,查询出目标数据位于哪个R
阅读全文
posted @ 2021-09-03 23:03
秋华
摘要:1 写流程 写流程: 1)Client先访问zookeeper,获取hbase:meta表位于哪个Region Server。 2)访问对应的Region Server,获取hbase:meta表,根据读请求的namespace:table/rowkey,查询出目标数据位于哪个Region Serv
阅读全文
posted @ 2021-09-03 22:58
秋华
摘要:1 基本操作 1.1 进入HBase客户端命令行 [atguigu@hadoop102 hbase]$ bin/hbase shell 1.2 查看帮助命令 hbase(main):001:0> help 2 namespace的操作 2.1 查看当前Hbase中有哪些namespace hbase
阅读全文
posted @ 2021-09-03 22:49
秋华
摘要:来源:https://blog.csdn.net/qq_43279457/article/details/109137470 happybase官方文档:https://happybase.readthedocs.io/en/latest/api.html# 0 hbase准备 0.1 使用happ
阅读全文
posted @ 2021-05-09 18:43
秋华
摘要:Phoenix组件和原生Hbase查询的时间性能对比 原生Hbase查询时间: count 'mysql_data' enter image description here Hbase查询时间为3856秒大约1小时7分钟 Hbase查询优化 count 'mysql_data', INTERVAL
阅读全文
posted @ 2020-12-13 13:06
秋华
摘要:原文:https://blog.csdn.net/rlnlo2pnefx9c/article/details/108288956 4.1 简单粗暴Sqoop 首先来回顾一下Sqoop架构图: 架构图 这里大家记住一个规则:大数据需要切分!如果不切分,这个亿级数据直接导入会崩溃!!! ★ 什么是Sqo
阅读全文
posted @ 2020-12-13 13:03
秋华
摘要:原文:https://blog.csdn.net/rlnlo2pnefx9c/article/details/108288956 本节题目为:亿级数据从 MySQL 到 Hbase 的三种同步方案与实践,首先需要了解如何快速插入MySQL。 那么MySQL数据插入将会从以下几个方法入手: load
阅读全文
posted @ 2020-12-13 12:47
秋华
摘要:原文:https://blog.csdn.net/rlnlo2pnefx9c/article/details/108288956 1.导语 大家好,我是光城,下面是我之前在gitchat上发布的一个资料,今天全部开源!源码全部存放在本人github仓库,地址:https://github.com/L
阅读全文
posted @ 2020-12-13 12:43
秋华
摘要:11.1 HBase在商业项目中的能力 每天: 1) 消息量:发送和接收的消息数超过60亿 2) 将近1000亿条数据的读写 3) 高峰期每秒150万左右操作 4) 整体读取数据占有约55%,写入占有45% 5) 超过2PB的数据,涉及冗余共6PB数据 6) 数据每月大概增长300千兆字节。 11.
阅读全文
posted @ 2020-12-13 11:57
秋华
摘要:1.1 HBase与Hive的对比 1.Hive (1) 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。 (2) 用于数据分析、清洗 Hive适用于离线的数据分析和清洗,延迟较高。 (3) 基于HDFS、MapReduce
阅读全文
posted @ 2020-11-27 20:29
秋华
摘要:1 高可用 在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并 不会维持太久。所以 HBase 支持对 HMaster 的高可用
阅读全文
posted @ 2020-09-23 15:28
秋华
摘要:1 Phoenix简介 1.1 Phoenix定义 Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。 1.2 Phoenix特点 1)容易集成:如Spark,Hive,Pig,Flume和Map Reduce;
阅读全文
posted @ 2020-07-30 23:43
秋华
摘要:1 环境准备 新建项目后在pom.xml中添加依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>2.0.5</version> </dependency
阅读全文
posted @ 2020-07-30 23:13
秋华
摘要:1 架构原理 1)StoreFile 保存实际数据的物理文件,StoreFile 以 HFile 的形式存储在 HDFS 上。每个 Store 会有一个或多个 StoreFile(HFile),数据在每个 StoreFile 中都是有序的。 2)MemStore 写缓存,由于 HFile 中的数据要
阅读全文
posted @ 2020-07-30 21:18
秋华