Kettle (一) 安装及简介
一、安装
官网:https://sourceforge.net/projects/pentaho/files/Data%20Integration/
参考: https://zhuanlan.zhihu.com/p/156906712
二、简介
1、运行方式
2、图形界面
3、作业和转换
作业(Job)的后缀为.kjb 负责整个工作流的控制.
转换(Transformation),后缀为.ktr,完成针对数据的基础转换.
4、Kettle实施步骤
打开图像界面,运行 spoon.sh(Linux-- sh spoon.sh) 或 spoon.bat(Windows)
创建数据库连接、创建转换、创建 Jobs,进行流程化控制 (这三步顺序可以互换)
|
对于Linux上的启动 缺少libwebkitgtk-1.0-0库的问题, CentOS7 命令如下: sudo wget ftp://ftp.pbone.net/mirror/ftp5.gwdg.de/pub/opensuse/repositories/home:/matthewdva:/build:/EPEL:/el7/RHEL_7/x86_64/webkitgtk-2.4.9-1.el7.x86_64.rpm yum install -y libXtst 之后再输入sh spoon.sh,如果报错:
说明需要安装Linux可视化界面 ----------------- 解决方法 -------------------- 安装Xmanager7 然后它里面创建XStart会话,连接要可视化界面的主机master 如果弹出报错”已拒绝X11转移申请”,解决办法: X11 forwarding是依赖“xorg-x11-xauth”软件包,所以必须先安装“xorg-x11-xauth”软件包。 如果执行远程命令过程中报错:-bash:usr/bin/xterm: no such file or directory 解决办法:yum install -y xterm 这样再在弹出的命令窗口中cd到指定路径下,然后输入启动命令 sh spoon.sh即可弹出Kettle可视化界面。 |
5、常用的组件

6、作业的执行
带锁的是无论失败与否都执行下去.
7、转换的执行
8、作业和转换的调用关系
9、常见数据同步方式
表 同步到 表
表 同步到 文件
文件 同步到 文件
文件 同步到 表
10、访问类型
JDBC(Linux)、ODBC(Windows)、JNDI
推荐使用 JNDI(便于新建连接或是用户名密码的修改)
找到此文件 D:\Kettle7.1\data-integration\simple-jndi\jdbc.properties
添加如下配置信息:
HIVE_RW/type=javax.sql.DataSource
HIVE_RW/driver=org.apache.hive.jdbc.HiveDriver
HIVE_RW/url=jdbc:hive2://master:10000/default
HIVE_RW/user=hive
HIVE_RW/password=hive
MYSQL_RW/type=javax.sql.DataSource
MYSQL_RW/driver=org.gjt.mm.mysql.Driver
MYSQL_RW/url=jdbc:mysql://192.168.212.50:3306/test
MYSQL_RW/user=root
MYSQL_RW/password=000000
接着进行连接测试:

注意:JNDI的名称要和配置文件中的保持一致,测试后连接成功即可。
11、日志级别
可以在执行作业中设置日志级别

12、设置并行的两种方式
(1)适合不同并行分支处理不同的任务

(2)适合相似任务多次执行


浙公网安备 33010602011771号