Hadoop-Hbase安装及工作原理

安装

put hbase-2.0.1-bin.tar.gz
mkdir /opt/hbase && tar -zxf /root/hbase-2.0.1-bin.tar.gz -C /opt/hbase

配置HA模式

# 配置hbase-env.sh
echo '
export HBASE_MANAGES_ZK=false
export JAVA_HOME=/opt/java/jdk1.8.0_211
' >> /opt/hbase/hbase-2.0.1/conf/hbase-env.sh

#配置regionservers，一起启动
cat > /opt/hbase/hbase-2.0.1/conf/regionservers <<EOF
worker3
worker4
worker5
EOF

#配置备用master
echo 'worker4' > /opt/hbase/hbase-2.0.1/conf/backup-masters

# 配置hbase-site.xml
sed -i '/^<configuration>/,/<\/configuration>$/d' /opt/hbase/hbase-2.0.1/conf/hbase-site.xml &&\
cat >> /opt/hbase/hbase-2.0.1/conf/hbase-site.xml <<EOF
<configuration>
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://NameNs/hbase</value>
    </property>
    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>
    <property>
        <name>hbase.master</name>
        <value>60000</value>
    </property>
    <property>
        <name>hbase.tmp.dir</name>
        <value>/data/hbase/tmp</value>
    </property>
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>worker3,worker4,worker5</value>
    </property>
    <property>
        <name>hbase.zookeeper.property.dataDir</name>
        <value>/data/zookeeper</value>
    </property>
    <property>
        <name>hbase.zookeeper.property.clientPort</name>
        <value>2181</value>
    </property>
    <property>
        <name>zookeeper.session.timeout</name>
        <value>120000</value>
    </property>
    <property>
        <name>hbase.regionserver.restart.on.zk.expire</name>
        <value>true</value>
    </property>
</configuration>
EOF

启动

# Hbase-HA start-hbase.sh
[root@worker3]# hbase-daemon.sh start master
[root@worker3]# hbase-daemon.sh start master
[root@worker3]# hbase-daemon.sh start regionserver
[root@worker3]# hbase-daemon.sh start regionserver
[root@worker3]# hbase-daemon.sh start regionserver

工作原理

在推荐算法中，一篇文章会被解析成上亿维的向量，所有文章构成的矩阵是一个巨大的稀疏矩阵，Hbase就是为了存储这个巨大矩阵而衍生出来的产物；由于它的稀疏性，数据都是一块一块的，其他绝大部分都是空的，Hbase就是基于HDFS，将向量的上亿维度，通过3级树形结构来降维，只存储包含数据的块。

示例

posted @ 2020-05-18 18:06 Cshare 阅读(91) 评论(0) 收藏举报

刷新页面返回顶部