Sqoop简介和实战 (一) 介绍 + 架构 + 运行原理 + 数据划分原理

一、Sqoop介绍

Sqoop是一款开源的工具,主要用于在HDFS和传统数据库间进行高效数据的传递:

关系型数据库数据导入到HDFS、HDFS的数据导出到关系型数据库.

二、Sqoop架构

三、Sqoop运行原理

Sqoop client会通过JDBC查询一些元数据信息,然后再会将他们转换成Java类(每个字段会保存成Filed)保存上.

接着Sqoop根据该文件启动一些MapReduce任务,将数据进行切分,

根据split-by字段,把数据划分为m份
启动m个map任务把数据写入HDFS,
如果有merge操作,还会启动reduce.

最后,将处理好的数据加载到 HDFS中

四、数据划分原理

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3