Sqoop简介和实战 (一) 介绍 + 架构 + 运行原理 + 数据划分原理
一、Sqoop介绍
Sqoop是一款开源的工具,主要用于在HDFS和传统数据库间进行高效数据的传递:
关系型数据库数据导入到HDFS、HDFS的数据导出到关系型数据库.
二、Sqoop架构

三、Sqoop运行原理
Sqoop client会通过JDBC查询一些元数据信息,然后再会将他们转换成Java类(每个字段会保存成Filed)保存上.
接着Sqoop根据该文件启动一些MapReduce任务,将数据进行切分,
根据split-by字段,把数据划分为m份
启动m个map任务把数据写入HDFS,
如果有merge操作,还会启动reduce.
最后,将处理好的数据加载到 HDFS中.
四、数据划分原理

浙公网安备 33010602011771号