Hadoop-Hbase安装及工作原理
安装
put hbase-2.0.1-bin.tar.gz
mkdir /opt/hbase && tar -zxf /root/hbase-2.0.1-bin.tar.gz -C /opt/hbase
配置HA模式
# 配置hbase-env.sh
echo '
export HBASE_MANAGES_ZK=false
export JAVA_HOME=/opt/java/jdk1.8.0_211
' >> /opt/hbase/hbase-2.0.1/conf/hbase-env.sh
#配置regionservers,一起启动
cat > /opt/hbase/hbase-2.0.1/conf/regionservers <<EOF
worker3
worker4
worker5
EOF
#配置备用master
echo 'worker4' > /opt/hbase/hbase-2.0.1/conf/backup-masters
# 配置hbase-site.xml
sed -i '/^<configuration>/,/<\/configuration>$/d' /opt/hbase/hbase-2.0.1/conf/hbase-site.xml &&\
cat >> /opt/hbase/hbase-2.0.1/conf/hbase-site.xml <<EOF
<configuration>
<property>
<name>hbase.rootdir</name>
<value>hdfs://NameNs/hbase</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.master</name>
<value>60000</value>
</property>
<property>
<name>hbase.tmp.dir</name>
<value>/data/hbase/tmp</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>worker3,worker4,worker5</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/data/zookeeper</value>
</property>
<property>
<name>hbase.zookeeper.property.clientPort</name>
<value>2181</value>
</property>
<property>
<name>zookeeper.session.timeout</name>
<value>120000</value>
</property>
<property>
<name>hbase.regionserver.restart.on.zk.expire</name>
<value>true</value>
</property>
</configuration>
EOF
启动
# Hbase-HA start-hbase.sh
[root@worker3]# hbase-daemon.sh start master
[root@worker3]# hbase-daemon.sh start master
[root@worker3]# hbase-daemon.sh start regionserver
[root@worker3]# hbase-daemon.sh start regionserver
[root@worker3]# hbase-daemon.sh start regionserver
工作原理
在推荐算法中,一篇文章会被解析成上亿维的向量,所有文章构成的矩阵是一个巨大的稀疏矩阵,Hbase就是为了存储这个巨大矩阵而衍生出来的产物;由于它的稀疏性,数据都是一块一块的,其他绝大部分都是空的,Hbase就是基于HDFS,将向量的上亿维度,通过3级树形结构来降维,只存储包含数据的块。
示例

浙公网安备 33010602011771号