文章分类 - HBase
摘要:在impala中建立hbase的外表 Impala是Cloudera 开发的所以在CDH大数据环境下 安装简单,CDH自己集成了Impala Impala可以通过Hive外部表方式和HBase进行整合,步骤如下: 步骤1:创建hbase 表,向表中添加数据 create 'test_info', '
阅读全文
摘要:HBase Shell命令大全 一:简介 HBase的名字的来源于Hadoop database,即hadoop数据库,不同于一般的关系数据库,它是非结构化数据存储的数据库,而且它是基于列的而不是基于行的模式。 HBase是一个分布式的、面向列的、基于Google Bigtable的开源实现。 利用
阅读全文
摘要:union & union all 的作用 SQL UNION 操作符 UNION 操作符用于合并两个或多个 SELECT 语句的结果集。 请注意,UNION 内部的 SELECT 语句必须拥有相同数量的列。列也必须拥有相似的数据类型。同时,每条 SELECT 语句中的列的顺序必须相同。 SQL U
阅读全文
摘要:伪分布式集群 Linux 查看历史命令 history Linux查看进程运行的状态 top 也能查看集群资源 为了节省计算机的资源,我们将之前分布式的集群,改为伪分布式 伪分布式:即在一个节点上做分布式,可以节省资源 拍摄快照 在改伪分布式之前可以给我们的集群拍个快照,方便之后如果想要用回分布式集
阅读全文
摘要:Linux top 持续监听进程运行状态 查看内存 top 命令的基本格式如下: [root@localhost ~]#top [选项] 选项: -d 秒数:指定 top 命令每隔几秒更新。默认是 3 秒; -b:使用批处理模式输出。一般和"-n"选项合用,用于把 top 命令重定向到文件中; -n
阅读全文
摘要:面对百亿数据,HBase为什么查询速度依然非常快? HBase适合存储PB级别的海量数据(百亿千亿量级条记录),如果根据记录主键Rowkey来查询,能在几十到百毫秒内返回数据。 那么HBase是如何做到的呢? 接下来,简单阐述一下数据的查询思路和过程。 查询过程 第1步: 项目有100亿业务数据,存
阅读全文
摘要:Phoenix HBase适合存储大量的对关系运算要求低的NOSQL数据,受HBase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。HBase很优秀,一些团队寻求在HBase之上提供一种更面向普通开发人员的操作方式,Apache Phoenix即是。 Pho
阅读全文
摘要:MapReduce on HBase 流程图☆ 不能直接穿到底层去读取 HFile ,因为有一部分数据在 MemStore 中,所以要去和 RegionServer 建立连接,获取数据 一个 region 会生成一个切片,即对应一个 Map 任务,本质上是通过 Scan 获取数据 TableInpu
阅读全文
摘要:HBase过滤器 添加依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.4.6</version> </depende
阅读全文
摘要:单独 启动 或 停止 HMaster、HRegionServer 的进程 hbase-daemon.sh start/stop master/regionserver H -- 可以省略 HBase 架构图 Plus 及读写流程 BLockCache BlockCache基于客户端对数据的访问频率,
阅读全文
摘要:HBase Java API 添加依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.4.6</version> </d
阅读全文
摘要:几个主要 Hbase API 类和数据模型之间的对应关系: HBaseAdmin 类:org.apache.hadoop.hbase.client.HBaseAdmin 作用:提供了一个接口来管理 HBase 数据库的表信息。它提供的方法包括:创建表,删 除表,列出表项,使表有效或无效,以及添加或删
阅读全文
摘要:HBase数据模型 HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的 HRegionServer上。 在 HDFS 上 HBase 每个表的目录下,会以 Region 划分并形成对应的目录 HRegion由一个或者多个Store组成,每个
阅读全文
摘要:Hbase系统架构 HMaster -- 主节点 作用: 为HRegionRerver分配region 负责HRegionRerver的负载均衡 发现失效的HRegionRerver并重新分配其上的region 管理用户对table的结构增删改操作,这里少了查 HRegionServer -- 从节
阅读全文
摘要:Hadoop和HBase HBase是基于Hadoop集群之上来搭建的 Hadoop有一些局限性的: 做一些批量的数据处理,吞吐量比较高,但是它对随机查询、实时操作性能是不行的 HBase是NoSQL数据库的一种,它跟传统的RDBMS(关系数据库管理系统)有很大的差别 不支持JOIN的,摒弃了关系型
阅读全文
摘要:操作HBase的方式 HBase 自带的 shell Hive 中使用外部表 MapReduce Phoenix Java API -- 最常用 HBase shell 的常用基本操作 // 进入 hbase shell // 退出 exit 在 HBase shell 中一行命令的结束不需要以 ;
阅读全文
摘要:HBase的简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 面向列 -- 面向列族 HBase中的数据是 K-V 格式的 其中 K -- rowkey(rk) V 是由很多部分构成的,其中就有 Column Family(列族 简
阅读全文
摘要:一句话概括一下Hive 传入一条交互式的SQL在海量数据中查询 分析 交互式的过程 -- REPL R -- Read 读 E -- Execute 执行 P -- Print 输出 L -- Loop 循环 HBase的特点 NoSQL、非关系型、半结构化的数据库 适合海量数据的实时查询 k-v
阅读全文

浙公网安备 33010602011771号