Sqoop | 批量数据迁移工具

Sqoop简介

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库mysql、postgresql...间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
Sqoop2的最新版本是1.99.7。请注意，2与1不兼容，且特征不完整，它并不打算用于生产部署。、

Sqoop原理

将导入或导出命令翻译成mapreduce程序来实现。
在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。

一、Sqoop安装

安装Sqoop的前提是已经具备Java和Hadoop的环境。
下载并解压
1. 下载地址：https://archive.apache.org/dist/sqoop/
2. 上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到虚拟机中
3. 解压sqoop安装包到指定目录，如：
  tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/

修改配置文件
sqoop根目录下的conf目录中

重命名配置文件
mv sqoop-env-template.sh sqoop-env.sh

修改配置文件
sqoop-env.sh

#配置各个组件目录
export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2
export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2
export HIVE_HOME=/opt/module/hive
export ZOOKEEPER_HOME=/opt/module/zookeeper-3.4.10
export ZOOCFGDIR=/opt/module/zookeeper-3.4.10
export HBASE_HOME=/opt/module/hbase

拷贝JDBC驱动
拷贝jdbc驱动到sqoop的lib目录下
cp mysql-connector-java-5.1.27-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/

验证Sqoop
bin/sqoop help 出现一些Warning警告（警告信息已省略），并伴随着帮助命令的输出：

Available commands:
  codegen            Generate code to interact with database records
  create-hive-table     Import a table definition into Hive
  eval               Evaluate a SQL statement and display the results
  export             Export an HDFS directory to a database table
  help               List available commands
  import             Import a table from a database to HDFS
  import-all-tables     Import tables from a database to HDFS
  import-mainframe    Import datasets from a mainframe server to HDFS
  job                Work with saved jobs
  list-databases        List available databases on a server
  list-tables           List available tables in a database
  merge              Merge results of incremental imports
  metastore           Run a standalone Sqoop metastore
  version            Display version information

测试Sqoop是否能够成功连接数据库
bin/sqoop list-databases --connect jdbc:mysql://hadoop102:3306/ --username root --password 000000
出现如下输出：
```
information_schema
metastore
mysql
oozie
performance_schema
```

二、Sqoop的简单使用案例

导入数据
在Sqoop中，“导入”概念指：从非大数据集群（RDBMS）向大数据集群HDFS，HIVE，HBASE中传输数据，叫做：导入，即使用import关键字。

1. RDBMS到HDFS

确定Mysql服务开启正常
在Mysql中新建一张表并插入一些数据

mysql -uroot -p000000
mysql> create database company;
mysql> create table company.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255));
mysql> insert into company.staff(name, sex) values('Thomas', 'Male');
mysql> insert into company.staff(name, sex) values('Catalina', 'FeMale');

导入数据

全部导入

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t"

查询导入

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--query 'select name,sex from staff where id <=1 and $CONDITIONS;'

| must contain '$CONDITIONS' in WHERE clause.
$CONDITIONS 必须添加
| 如果query后使用的是双引号，则 $CONDITIONS前必须加转移符，防止shell识别为自己的变量。

导入指定列

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--columns id,sex \
--table staff

使用sqoop关键字筛选查询导入数据

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--target-dir /user/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--table staff \
--where "id=1"

2. RDBMS到Hive

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--num-mappers 1 \
--hive-import \
--fields-terminated-by "\t" \
--hive-overwrite \
--hive-table staff_hive

该过程分为两步，第一步将数据导入到HDFS，第二步将导入到HDFS的数据迁移到Hive仓库，第一步默认的临时目录是/user/用户名/表名

3. RDBMS到Hbase

$ bin/sqoop import \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table company \
--columns "id,name,sex" \
--column-family "info" \
--hbase-create-table \
--hbase-row-key "id" \
--hbase-table "hbase_company" \
--num-mappers 1 \
--split-by id

sqoop1.4.6只支持HBase1.0.1之前的版本的自动创建HBase表的功能
解决方案：手动创建HBase表
hbase> create 'hbase_company,'info'
在HBase中scan这张表得到如下内容
hbase> scan 'hbase_company'

导出数据
在Sqoop中，“导出”概念指：从大数据集群HDFS，HIVE，HBASE向非大数据集群（RDBMS）中传输数据，叫做：导出，即使用export关键字
```
$ bin/sqoop export \
--connect jdbc:mysql://hadoop102:3306/company \
--username root \
--password 000000 \
--table staff \
--num-mappers 1 \
--export-dir /user/hive/warehouse/staff_hive \
--input-fields-terminated-by "\t"
```
Mysql中如果表不存在，不会自动创建

三、脚本打包

创建一个.opt文件使用opt格式的文件打包sqoop命令，然后执行
```
mkdir opt
touch opt/job_HDFS2RDBMS.opt
```

编写sqoop脚本

vi opt/job_HDFS2RDBMS.opt

export
--connect
jdbc:mysql://hadoop102:3306/company
--username
root
--password
000000
--table
staff
--num-mappers
1
--export-dir
/user/hive/warehouse/staff_hive
--input-fields-terminated-by
"\t"

执行该脚本
bin/sqoop --options-file opt/job_HDFS2RDBMS.opt

posted @ 2022-08-03 23:10 —清风碎心— 阅读(275) 评论(0) 收藏举报

刷新页面返回顶部

—清风碎心—

Sqoop | 批量数据迁移工具

Sqoop | 批量数据迁移工具

Sqoop简介

Sqoop原理

一、Sqoop安装

二、Sqoop的简单使用案例

1. RDBMS到HDFS

2. RDBMS到Hive

3. RDBMS到Hbase

三、脚本打包

公告