Hadoop+hive+sqoop采坑笔记

1 软件包下载

我是在hyper-v虚拟机安装centos进行学习的,以下为所需的软件下载地址:

  1. java下载,直接百度java到oracle官网下载即可,我是用的是java1.8
  2. hadoop下载,直接到hadoop下载2.7.1版本的就行了
  3. hive下载,不晓得什么原因,我到apache官网下载速度超级慢,所以选用清华大学镜像下载
  4. sqoop下载,同样是选择清华大学镜像下载的,速度杠杠的
  5. mysql下载,直接到官网下载对应的rpm包,然后安装就行了
    由于文件在windows系统上,将上述文件传输到centos系统
    scp hadoop-2.7.1.tar.gz hive-1.2.2.tar.gz sqoop-1.4.7.tar.gz java1.8.tar.gz root@远程主机:/usr/local

2 安装

2.1 java安装

解压缩java包到/usr/local下即可

tar -zxvf java1.8.tar.gz

通过vim /etc/profile配置环境变量,加入以下内容

export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin

2.2 hadoop安装

解压缩

tar -zxvf hadoop-2.7.1.tar.gz

2.3 配置

配置环境变量(vim /etc/profile)

 export HADOOP_HOME=/usr/local/hadoop
 export PATH=$PATH:$HADOOP/bin:$HADOOP_HOME/sbin

修改/usr/local/hadoop/etc/hadoop/hadoop-env.sh文件中的JAVA_HOME配置想为

JAVA_HOME=/usr/local/java

以下为四个xml文件的修改

core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 <configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

mapreduce-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 <configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

2.4 启动hadoop

格式化并启动hdfs

hdfs namenode -format
start-hdfs.sh

使用jps查看是否启动成功

启动yarn

start-yarn.sh

同样的使用jps命令查看是否有resourceMnager等进程
上述验证成功的方式还有:

2.5 安装hive

这里先不用mysql作为metadata的存放数据库,就是用内置的derby数据库,先进行如下配置:

修改conf/hive-env.sh,默认为conf/hive-env.sh.template

cp hive-env.sh.template hive.env.sh

配置上述文件中的HADOOP_HOME环境变量为hadoop安装目录
修改conf/hive-site.xml,默认为hive-default.xml.template,复制为hive-site.xml修改为如下内容,不然会在操作hive时候提醒要你schematool --initialize --dbtype之类的异常:

<property>
    <name>hive.metastore.schema.verification</name>
    <value>false</value>
</property>
<property>
    <name>datanucleus.schema.autoCreateAll</name>
    <value>true</value>
</property>

2.6 验证hive安装成功

直接在命令行中输入hive命令,然后在hive客户端中

hive> show databases

显示出但当前默认的default数据库就表示hive安装成功了

2.7 安装sqoop工具

解压sqoop到/usr/local目录下,修改配置文件conf/sqoop-env.sh

# 复制sqoop-env-template.sh
cp conf/sqoop-env-template.sh conf/sqoop-env.sh

将修改三项设置以下:

  • HADOOP_COMMON_HOME="hadoop安装目录"
  • HADOOP_MAPRED_HOM="hadoop安装目录"
  • HIVE_HOME="Hive安装目录"

然后将hive/lib下的hive-common.*.jarhive-exec.*.jar复制到sqoop/lib目录下,就搞定了

posted on 2019-05-07 00:13  hwang126  阅读(254)  评论(0编辑  收藏  举报