Hadoop-Hbase安装及工作原理

安装

put hbase-2.0.1-bin.tar.gz
mkdir /opt/hbase && tar -zxf /root/hbase-2.0.1-bin.tar.gz -C /opt/hbase

配置HA模式

# 配置hbase-env.sh
echo '
export HBASE_MANAGES_ZK=false
export JAVA_HOME=/opt/java/jdk1.8.0_211
' >> /opt/hbase/hbase-2.0.1/conf/hbase-env.sh

#配置regionservers,一起启动
cat > /opt/hbase/hbase-2.0.1/conf/regionservers <<EOF
worker3
worker4
worker5
EOF

#配置备用master
echo 'worker4' > /opt/hbase/hbase-2.0.1/conf/backup-masters

# 配置hbase-site.xml
sed -i '/^<configuration>/,/<\/configuration>$/d' /opt/hbase/hbase-2.0.1/conf/hbase-site.xml &&\
cat >> /opt/hbase/hbase-2.0.1/conf/hbase-site.xml <<EOF
<configuration>
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://NameNs/hbase</value>
    </property>
    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>
    <property>
        <name>hbase.master</name>
        <value>60000</value>
    </property>
    <property>
        <name>hbase.tmp.dir</name>
        <value>/data/hbase/tmp</value>
    </property>
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>worker3,worker4,worker5</value>
    </property>
    <property>
        <name>hbase.zookeeper.property.dataDir</name>
        <value>/data/zookeeper</value>
    </property>
    <property>
        <name>hbase.zookeeper.property.clientPort</name>
        <value>2181</value>
    </property>
    <property>
        <name>zookeeper.session.timeout</name>
        <value>120000</value>
    </property>
    <property>
        <name>hbase.regionserver.restart.on.zk.expire</name>
        <value>true</value>
    </property>
</configuration>
EOF

启动

# Hbase-HA start-hbase.sh
[root@worker3]# hbase-daemon.sh start master
[root@worker3]# hbase-daemon.sh start master
[root@worker3]# hbase-daemon.sh start regionserver
[root@worker3]# hbase-daemon.sh start regionserver
[root@worker3]# hbase-daemon.sh start regionserver

工作原理

在推荐算法中,一篇文章会被解析成上亿维的向量,所有文章构成的矩阵是一个巨大的稀疏矩阵,Hbase就是为了存储这个巨大矩阵而衍生出来的产物;由于它的稀疏性,数据都是一块一块的,其他绝大部分都是空的,Hbase就是基于HDFS,将向量的上亿维度,通过3级树形结构来降维,只存储包含数据的块。

示例


posted @ 2020-05-18 18:06  Cshare  阅读(91)  评论(0)    收藏  举报