HBase - 文章分类 - 赤兔胭脂小吕布

在impala中建立hbase的外表

摘要：在impala中建立hbase的外表 Impala是Cloudera 开发的所以在CDH大数据环境下安装简单，CDH自己集成了Impala Impala可以通过Hive外部表方式和HBase进行整合，步骤如下：步骤1：创建hbase 表，向表中添加数据 create 'test_info', ' 阅读全文

posted @ 2022-09-08 17:59 赤兔胭脂小吕布阅读(224) 评论(0) 推荐(0)

HBase Shell命令大全

摘要：HBase Shell命令大全一：简介 HBase的名字的来源于Hadoop database，即hadoop数据库，不同于一般的关系数据库，它是非结构化数据存储的数据库，而且它是基于列的而不是基于行的模式。 HBase是一个分布式的、面向列的、基于Google Bigtable的开源实现。利用阅读全文

posted @ 2022-09-05 15:22 赤兔胭脂小吕布阅读(680) 评论(0) 推荐(0)

union & union all 的作用、SQL中的trim()、如何压缩HBase中的表、Hive建表时设置主键、where条件中对于字段为空的判断

摘要：union & union all 的作用 SQL UNION 操作符 UNION 操作符用于合并两个或多个 SELECT 语句的结果集。请注意，UNION 内部的 SELECT 语句必须拥有相同数量的列。列也必须拥有相似的数据类型。同时，每条 SELECT 语句中的列的顺序必须相同。 SQL U 阅读全文

posted @ 2022-06-22 15:04 赤兔胭脂小吕布阅读(323) 评论(0) 推荐(0)

伪分布式集群、Linux 查看历史命令

摘要：伪分布式集群 Linux 查看历史命令 history Linux查看进程运行的状态 top 也能查看集群资源为了节省计算机的资源，我们将之前分布式的集群，改为伪分布式伪分布式：即在一个节点上做分布式，可以节省资源拍摄快照在改伪分布式之前可以给我们的集群拍个快照，方便之后如果想要用回分布式集阅读全文

posted @ 2022-04-03 16:11 赤兔胭脂小吕布阅读(77) 评论(0) 推荐(0)

Linux top 持续监听进程运行状态

摘要：Linux top 持续监听进程运行状态查看内存 top 命令的基本格式如下： [root@localhost ~]#top [选项] 选项： -d 秒数：指定 top 命令每隔几秒更新。默认是 3 秒； -b：使用批处理模式输出。一般和"-n"选项合用，用于把 top 命令重定向到文件中； -n 阅读全文

posted @ 2022-03-02 00:31 赤兔胭脂小吕布阅读(149) 评论(0) 推荐(0)

面对百亿数据，HBase为什么查询速度依然非常快？

摘要：面对百亿数据，HBase为什么查询速度依然非常快？ HBase适合存储PB级别的海量数据（百亿千亿量级条记录），如果根据记录主键Rowkey来查询，能在几十到百毫秒内返回数据。那么HBase是如何做到的呢？接下来，简单阐述一下数据的查询思路和过程。查询过程第1步：项目有100亿业务数据，存阅读全文

posted @ 2022-03-02 00:26 赤兔胭脂小吕布阅读(350) 评论(0) 推荐(0)

Phoenix

摘要：Phoenix HBase适合存储大量的对关系运算要求低的NOSQL数据，受HBase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。HBase很优秀，一些团队寻求在HBase之上提供一种更面向普通开发人员的操作方式，Apache Phoenix即是。 Pho 阅读全文

posted @ 2022-03-02 00:18 赤兔胭脂小吕布阅读(334) 评论(0) 推荐(0)

MapReduce 操作 HBase、解决依赖缺失的问题

摘要：MapReduce on HBase 流程图☆ 不能直接穿到底层去读取 HFile ，因为有一部分数据在 MemStore 中，所以要去和 RegionServer 建立连接，获取数据一个 region 会生成一个切片，即对应一个 Map 任务，本质上是通过 Scan 获取数据 TableInpu 阅读全文

posted @ 2022-03-01 20:27 赤兔胭脂小吕布阅读(632) 评论(0) 推荐(0)

HBase过滤器

摘要：HBase过滤器添加依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.4.6</version> </depende 阅读全文

posted @ 2022-02-28 22:40 赤兔胭脂小吕布阅读(168) 评论(0) 推荐(0)

单独启动或停止 HMaster | HRegionServer 的进程、HBase架构图Plus 及读写流程、BlockCache、HBase的特点、RowKey、列簇、时间戳、Cell、Region分裂策略、Compaction操作、通过Hive 整合 HBase

摘要：单独启动或停止 HMaster、HRegionServer 的进程 hbase-daemon.sh start/stop master/regionserver H -- 可以省略 HBase 架构图 Plus 及读写流程 BLockCache BlockCache基于客户端对数据的访问频率，阅读全文

posted @ 2022-02-28 20:35 赤兔胭脂小吕布阅读(862) 评论(0) 推荐(0)

HBase Java API

摘要：HBase Java API 添加依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.4.6</version> </d 阅读全文

posted @ 2022-02-27 00:03 赤兔胭脂小吕布阅读(37) 评论(0) 推荐(0)

几个主要 Hbase API 类和数据模型之间的对应关系

摘要：几个主要 Hbase API 类和数据模型之间的对应关系： HBaseAdmin 类:org.apache.hadoop.hbase.client.HBaseAdmin 作用：提供了一个接口来管理 HBase 数据库的表信息。它提供的方法包括：创建表，删除表，列出表项，使表有效或无效，以及添加或删阅读全文

posted @ 2022-02-26 20:46 赤兔胭脂小吕布阅读(50) 评论(0) 推荐(0)

HBase数据模型、RowKey、Column Family（列族）和qualifier（列）、Timestamp时间戳、Cell单元格、读写流程、HLog(WAL log)

摘要：HBase数据模型 HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的 HRegionServer上。在 HDFS 上 HBase 每个表的目录下，会以 Region 划分并形成对应的目录 HRegion由一个或者多个Store组成，每个阅读全文

posted @ 2022-02-26 20:22 赤兔胭脂小吕布阅读(1513) 评论(0) 推荐(0)

HBase系统架构、Hmaster、HRegionServer、Memstore、storeFile、Region

摘要：Hbase系统架构 HMaster -- 主节点作用：为HRegionRerver分配region 负责HRegionRerver的负载均衡发现失效的HRegionRerver并重新分配其上的region 管理用户对table的结构增删改操作，这里少了查 HRegionServer -- 从节阅读全文

posted @ 2022-02-26 19:41 赤兔胭脂小吕布阅读(371) 评论(0) 推荐(0)

Hadoop和HBase、HBase的应用场景、Hbase对于RDBMS(关系数据库管理系统)对比Hive

摘要：Hadoop和HBase HBase是基于Hadoop集群之上来搭建的 Hadoop有一些局限性的：做一些批量的数据处理，吞吐量比较高，但是它对随机查询、实时操作性能是不行的 HBase是NoSQL数据库的一种，它跟传统的RDBMS(关系数据库管理系统)有很大的差别不支持JOIN的，摒弃了关系型阅读全文

posted @ 2022-02-26 15:03 赤兔胭脂小吕布阅读(117) 评论(0) 推荐(0)

操作HBase的方式、HBase Shell的常用基本操作、hbase在hdfs上的数据存储位置、hbase中的regions(分区)、hbase中的数据存放顺序

摘要：操作HBase的方式 HBase 自带的 shell Hive 中使用外部表 MapReduce Phoenix Java API -- 最常用 HBase shell 的常用基本操作 // 进入 hbase shell // 退出 exit 在 HBase shell 中一行命令的结束不需要以 ; 阅读全文

posted @ 2022-02-25 23:57 赤兔胭脂小吕布阅读(470) 评论(0) 推荐(0)

HBase的简介、HBase的搭建、重置HBase、HBase日志文件所在的目录、进入/退出HBase的shell、HBase的web界面

摘要：HBase的简介 HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库面向列 -- 面向列族 HBase中的数据是 K-V 格式的其中 K -- rowkey(rk) V 是由很多部分构成的，其中就有 Column Family（列族简阅读全文

posted @ 2022-02-25 22:06 赤兔胭脂小吕布阅读(1449) 评论(0) 推荐(0)

一句话概括一下Hive、HBase的特点、Hadoop 的生态系统、OLTP与OLAP

摘要：一句话概括一下Hive 传入一条交互式的SQL在海量数据中查询分析交互式的过程 -- REPL R -- Read 读 E -- Execute 执行 P -- Print 输出 L -- Loop 循环 HBase的特点 NoSQL、非关系型、半结构化的数据库适合海量数据的实时查询 k-v 阅读全文

posted @ 2022-02-25 20:27 赤兔胭脂小吕布阅读(149) 评论(0) 推荐(0)

赤兔胭脂小吕布

天行健，君子以自强不息！

文章分类 - HBase

公告