Kettle8.0 连接配置 CDH5.12 Hive1.1
先说结论:CDH5.12 最好使用 Kettle8.0 (8.2,8.3 均不可行,8.1 未测试)
背景说明
公司 CDH 环境,Kettle 环境安装比较早,版本很旧。近期考虑升级 Kettle 版本,因此需要做下 Kettle 版本兼容性测试。
(升级 CDH代价太大,暂不考虑。)
软件版本
- JDK : 1.8
- Kettle: 8.0
- CDH:5.12
- Hive:1.1
下载Kettle
现在 Kettle 的各版本下载地址,已经非常难找,在此特别感谢大佬(微信号: sanjin_1024)整理的 Kettle 各版本下载链接。
微信链接地址:https://mp.weixin.qq.com/s/CQRRlFDzw32TG8yPvcL9BA
夸克网盘地址:https://pan.quark.cn/s/ec85034ec569#/list/share/f567cff772d64850ac4547b5890a396d-kettle各个版本
截止目前涵盖:kettle 5.4-9.4 版本

配置Kettle
解压文件:
unzip pdi-ce-8.0.0.0-28.zip
JDK下载官网:https://www.oracle.com/cn/java/technologies/javase-downloads.html
Windows 配置参考:https://cloud.tencent.com/developer/article/1774160
配置 JAVA_HOME :
vim /etc/profile
# set java environment
JAVA_HOME=/usr/local/java/jdk1.8.0_241
CLASSPATH=.:$JAVA_HOME/lib.tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASSPATH PATH
# 重新加载配置文件
source /etc/profile
配置Hadoop
Hive连接驱动
对于 Kettle8.0 安装包自带 CDH5.12 连接驱动文件,如果缺失可从 服务器CDH 包环境下载
路径:data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh512/lib

Hadoop 配置
安装包中已经自带了配置文件
但是你需要将自己hadoop生态圈的配置文件更新过来。
可以从Cloudera管理控制台下载:

添加xml 文件到:data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh512

Hadoop生效
我们注意到 cdh512 同级目录下有很多其他 Hadoop 配置项,但是只能有一个生效,默认是都不生效。

配置文件路径:data-integration/plugins/pentaho-big-data-plugin/plugin.properties
修改配置内容:
active.hadoop.configuration=cdh512

创建连接
正常创建Hive 连接:

异常处理
找不到合适的驱动

可以有很多原因导致:
- Kettle 版本太高,可以参考 kettle 下载后自带的 cdh 版本。
![image]()
因为kettle连接hadoop集群,分为连接CDH还是apache hadoop,从目录\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations 就可以看出,每个版本的kettle只能连接该目录下指定的集群版本,因为 pentaho-hadoop-shims*.jar 这个文件的是用来匹配kettle和集群版本的,不能随意搭配。
因为官网上的shims版本是有限的。(https://sourceforge.net/projects/pentaho/files/Big Data Shims)
文件名:pentaho-hadoop-shims-cdh512-80.2017.10.00-28.jar
其中:
- cdh512 指适配的 CDH 版本5.12
- 80 指适配的 kettle 版本 8.0
- 未添加 Hive 连接配置文件到 lib 目录。
此 lib 目录指:data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh512/lib
非放 mysql、Oracle 等数据驱动的data-integration/lib目录


浙公网安备 33010602011771号