摘要:但凡使用到HBase,数据量绝对不会少,这时候就需要考虑到查询的效率问题,以及可能出现的数据倾斜问题(热点问题)。我们可以同过对rowkey进行设计,规划一个合理的预分区,让数据散列的分布在各个分区上。 因此:rowkey设计时就要考虑到一个预分区的问题;同样,预分区也不可背离开rowkey而随意设
阅读全文
摘要:HBase与Hive的对比: Hive: 数据仓库; Hive的本质其实就相当于将HDFS中已经存储的文件在MySQL中做了一个双射关系,以方便使用HQL去管理查询。 2. 用于数据分析、清洗; Hive适用于离线的数据分析和清洗,延迟较高 3. 基于HDFS,MR; Hive中真实存储的数据依旧在
阅读全文
摘要:准备工作: 导包:hbase-client / hbase-common / hbase-server <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-common</artifactId> <version>1.
阅读全文
摘要:Hbase框架不同于一般框架,一般框架都是读快写慢,而Hbase恰恰相反,他的写要更快些。 写数据流程: 1.发出请求: (第一次交互)客户端通过Zookeeper的调度,通过它上面的meta表,找到meta表所在的HregionServer位置信息,返回给客户端; (第二次交互)客户端再次交互上面
阅读全文
摘要:一、Hbase介绍: (HBase的默认端口号:60010) 一个分布式、可扩展的支持海量数据存储的NoSQL数据库,基于HDFS分布式文件系统,利用zookeeper作为协同服务去构建的。他的数据是存储在HDFS之上。主要用来存储非结构化和半结构化的松散数据。(所以启动的时候先启动HDFS和zoo
阅读全文
摘要:启动顺序: Hadoop(start-all.sh) zookeeper (zkServer.sh start) hbase (start-hbase.sh) jps看下进程: DDL: 创建命名空间: create_namespace '命名空间' 查看命名空间: describe_namespa
阅读全文