SummerRain

软件开发/信息安全
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

转自:https://www.aboutyun.com/home.php?mod=space&uid=71645&do=blog&id=3535 

kettle是一个比较好用的ETL开源工具,之前一直使用的是6.1版本,最近项目组有小伙伴第一次使用,直接下载了7.1版本。在使用中关于资源库的使用和6.1版本略有不同,如何创建资源库这里就不赘述了,大家可以参考网上的方法。但是小伙伴反馈资源库每次在kettle关闭重新打开后就不能用了,甚至连右上角那个connect按钮也不见了。

聪明的小伙伴已经找到原因了,是由于资源库中包含中文,但是在repositories.xml(系统盘用户目录.kettle目录下)中中文显示的是乱码,解决办法是删除这个文件里的内容,把目录名全部用英文,然后重新创建资源库,且资源库信息中不包含任何中文。这是一种方法,我同意,但这样改动太大,且涉及到svn以及生产库,且无法支持中文这个问题就浮出来了,联想到我之前一直用的6.1版本就没有这个中文编码问题,我觉得这是7.1中的一个小bug。

第一步用notepad++打开两个不同版本创建的资源库配置文件repositories.xml(默认在C:\Users\Administrator\.kettle),右下角文件编码里显示6.1版本创建的是utf-8,而7.1版本创建的是GB2312。看来确实是两个版本创建时所用的默认编码格式不同。为了验证我的想法,7.1版本的配置文件用记事本打开,然后用utf-8编码另存后,重新打开kettle7.1,资源库能顺利打开。
在看7.1的配置文件,第一行是<?xml version="1.0" encoding="UTF-8"?>,很明显,配置文件提示的编码格式是UTF-8,这和实际的编码格式不一致。所以我大胆猜测,kettle在读取配置文件时是根据这个提示使用编码格式的,所以必须在保存时按照utf-8保存,才能正确读取中文。


第二步,按照这个思路,查找如何调整kettle使用的编码,终于找到原来只要在启动时加入编码参数就可以指定UTF-8格式的编码,具体操作如下:
1.用编辑器打开Spoon.bat
2.在命令行if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m" "-XX:MaxPermSize=256m"后面加上"-Dfile.encoding=UTF-8"
3.关闭重新打开kettle(这里如果原来的repositories.xml没有另存为UTF-8格式的,则需要删除此文件里的内容或另存为UTF-8格式
4.创建一个带中文路径的资源库测试
5.用notepad++打开配置文件,查看编码格式,正常显示为UTF-8,与提示一致,不保存,直接关闭
6.关闭kettle并重新打开,资源库能正常使用
问题彻底解决
新的解决方法更简单,对用户来说几乎透明,只需把修改后的spoon.bat替换原来的文件,并提示用户把原来的配置文件另存为utf-8格式即可