Kettle (一) 安装及简介

Posted on 2021-06-15 11:40  MissRong  阅读(383)  评论(0)    收藏  举报

Kettle (一) 安装及简介

一、安装

官网:https://sourceforge.net/projects/pentaho/files/Data%20Integration/

参考:  https://zhuanlan.zhihu.com/p/156906712

二、简介

1、运行方式

图形界面:Spoon
命令行:Pan、Kitchen
API: Kettle Java API

2、图形界面

 3、作业和转换

作业(Job)的后缀为.kjb 负责整个工作流的控制.

转换(Transformation),后缀为.ktr,完成针对数据的基础转换.

4、Kettle实施步骤

打开图像界面,运行 spoon.sh(Linux-- sh spoon.sh) 或 spoon.bat(Windows)

创建数据库连接、创建转换、创建 Jobs,进行流程化控制 (这三步顺序可以互换)

对于Linux上的启动 缺少libwebkitgtk-1.0-0库的问题,

CentOS7 命令如下:

sudo wget ftp://ftp.pbone.net/mirror/ftp5.gwdg.de/pub/opensuse/repositories/home:/matthewdva:/build:/EPEL:/el7/RHEL_7/x86_64/webkitgtk-2.4.9-1.el7.x86_64.rpm
sudo yum install webkitgtk-2.4.9-1.el7.x86_64.rpm

yum install -y libXtst

之后再输入sh spoon.sh,如果报错:

说明需要安装Linux可视化界面

----------------- 解决方法 --------------------

安装Xmanager7

然后它里面创建XStart会话,连接要可视化界面的主机master

如果弹出报错”已拒绝X11转移申请,解决办法:

X11 forwarding是依赖“xorg-x11-xauth”软件包,所以必须先安装“xorg-x11-xauth”软件包。

如果执行远程命令过程中报错:-bash:usr/bin/xterm: no such file or directory

解决办法:yum install -y xterm

这样再在弹出的命令窗口中cd到指定路径下,然后输入启动命令 sh spoon.sh即可弹出Kettle可视化界面。

5、常用的组件

6、作业的执行

由Start(开始)作为统一入口
分串行执行和并行执行
串行执行是先执行完其中一条线再执行另一条线
并行是多条线同时执行,同一分支上的两个步聚串行执行
每个步骤执行结果分两种:true/false

 带锁的是无论失败与否都执行下去.

7、转换的执行

没有统一入口
每个分支的第一个步骤同时执行,同一个分支的多个步骤按顺序执行
数据从前往后传递,当前步骤处理完往后复制或者分发
①复制:把一份数据复制成多份,后续步骤各占一份
②分发:把一份数据平均分配给后面步骤

8、作业和转换的调用关系

9、常见数据同步方式

表 同步到 表

表 同步到 文件

文件 同步到 文件

文件 同步到 表

10、访问类型

JDBC(Linux)、ODBC(Windows)、JNDI

推荐使用 JNDI便于新建连接或是用户名密码的修改)

找到此文件   D:\Kettle7.1\data-integration\simple-jndi\jdbc.properties

添加如下配置信息:

HIVE_RW/type=javax.sql.DataSource 
HIVE_RW/driver=org.apache.hive.jdbc.HiveDriver 
HIVE_RW/url=jdbc:hive2://master:10000/default
HIVE_RW/user=hive
HIVE_RW/password=hive
MYSQL_RW/type=javax.sql.DataSource 
MYSQL_RW/driver=org.gjt.mm.mysql.Driver 
MYSQL_RW/url=jdbc:mysql://192.168.212.50:3306/test
MYSQL_RW/user=root 
MYSQL_RW/password=000000

接着进行连接测试:

 注意:JNDI的名称要和配置文件中的保持一致,测试后连接成功即可。

11、日志级别

可以在执行作业中设置日志级别

 12、设置并行的两种方式

(1)适合不同并行分支处理不同的任务

(2)适合相似任务多次执行

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3