随笔分类 -  HBase

摘要:Hbase集群基本组件说明 Client: 包含访问Hbase的接口,并维护cache来加快对Hbase的访问,比如region的位置信息。 HMaster: 是hbase集群的主节点,可以配置多个,用来实现HA 为RegionServer分配region 负责RegionServer的负载均衡 发 阅读全文
posted @ 2020-05-21 18:33 Q1Zhen 阅读(173) 评论(0) 推荐(0)
摘要:前言 学习总结一下Hive的分桶表。 分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。 优点:1、提高join查询效率 2、提高抽样效率 1、建表 通过 clustered by(字段名) into bucket_num bucket 阅读全文
posted @ 2020-05-19 22:51 Q1Zhen 阅读(477) 评论(1) 推荐(0)
摘要:一、引言 HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用,在易观精细化运营产品 易观方舟也有广泛的应用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据 阅读全文
posted @ 2020-05-19 10:10 Q1Zhen 阅读(152) 评论(0) 推荐(0)
摘要:高可用 保证HMaster存在 1.在hbase/conf目录下创建backup masters文件 2.在backup masters文件中配置高可用的HMaster节点 3.将整个conf目录传输到其他节点 预分区 每一个region维护着StartRow与EndRow,如果加入的数据符合某个R 阅读全文
posted @ 2020-05-09 01:21 Q1Zhen 阅读(103) 评论(0) 推荐(0)
摘要:二者对比 1.Hive 数据仓库:本质其实就相当于将hdfs中已经存储的文件在Mysql中做了一个双射关系,以方便用HQL去管理查询。 用于数据分析、清洗:Hive适用于离线的数据分析和清洗,延迟较高。 基于HDFS、MapReduce:Hive存储的数据依旧在DataNode上,编写的HQL语句终 阅读全文
posted @ 2020-05-08 23:40 Q1Zhen 阅读(92) 评论(0) 推荐(0)
摘要:将jar包放置服务器运行 1.环境配置 + 在/etc/profile中配置 + 在hadoop env.sh配置,==在for循环后面添加== 直接在开发平台运行,连接到HBase服务端(以IDEA为例) 1.环境配置,添加hbase site.xml,将远程的hbase site.xml文件内容 阅读全文
posted @ 2020-05-07 22:17 Q1Zhen 阅读(157) 评论(0) 推荐(0)
摘要:Hbase API删除数据详解 一:代码实现如下: 二:分析和实践 ==javaAPI删除Hbase的数据有三种方式,hbase删除数据,并不是马上删掉,只是对数据打一个删除标记,真正删除数据是等到下一次major_compact(除非KEEP_DELETED_CELLS=true)。== 1) 删 阅读全文
posted @ 2020-05-07 19:15 Q1Zhen 阅读(468) 评论(0) 推荐(0)
摘要:写操作 1.客户端提交业务请求,会先向ZK请求meta表所在的RegionServer(meta位于hbase命名空间的一张表,记录其他表所处的位置) 2.ZK返回meta表所在RegionServer,客户端到指定位置请求,返回对应表的meta(并缓存下来,下次请求就不用再经过ZK了),获取对应的 阅读全文
posted @ 2020-05-07 00:58 Q1Zhen 阅读(128) 评论(0) 推荐(0)
摘要:1.修改hbase env.sh文件 2.修改hbase site.xml文件 3.在conf文件夹中创建hadoop配置文件的软链接 4.分发配置 5.启动RegionServer、Master,只能在指定master节点启动master服务(与Yarn中ResourceManager类似) == 阅读全文
posted @ 2020-04-26 00:57 Q1Zhen 阅读(95) 评论(0) 推荐(0)