随笔分类 - Kettle
开源ETL工具Kettle使用
摘要:用户登录APP,然后浏览了一些列页面。如果获取用户行为数据时没有对每次登陆分组,那么想知道用户每次登陆的行为数据就有点难了。下面使用 Kettle UDJC 组件给用户行为序列分组添加序列。
阅读全文
摘要:经过测试发现,如果 MongoDB 需要验证的话,kettle 的 “MongoDB input” 组件是无法连接 MongoDB 的。 (kettle 6.1 以及以下,如果你的连接成功了,请指教,谢谢,QQ:415426435) 那么我们怎么用 kettle 读入 MongoDB 的数据呢,笔者
阅读全文
摘要:首先声明本人不懂Java,只是从执行结果推测Kettle的处理机制,有不对的地方,还请多多指教。据我推测:SQL对数据的处理是批量处理的,而Kettle对数据的处理是逐行处理的。先理解一下meger(合并)和join(连接),假设A表两个字段,B表两个字段meger: 结果为两个字段。join: 结...
阅读全文
摘要:总感觉以下的做法不太合适,要用到result,如果大家有更好的改变variable的方法,请指教,谢谢!job如下:设置变量的trans如下:获取初始变量的trans:变量+1的trans:循环执行的trans:
阅读全文
摘要:job如下图:设置result的trans:result+1的trans:循环执行的trans:
阅读全文
摘要:先看一下job如下:在看一下设置循环条件的trans(图片里一个字写错了,大家不要在乎这些细节):再看一下循环执行的trans:最后最重要的看一下job里循环执行的trans的设置:执行结果如下:
阅读全文
摘要:argument: 位置参数parameter: 命名参数variable: 变量
阅读全文
摘要:在网上看过一个这个问题的解决办法,用到了函数什么的,其实根本不用那么麻烦,如下图便可轻松实现。trans下载地址:http://files.cnblogs.com/files/wanggs/rdm_val_cnt.ktr.zip
阅读全文
摘要:拉链表是在数据仓库中常见的表,主要用还存储不按时间变化的表,比如客户基本信息表。下面先建两个实例表,user_info和user_info_l,其中user_info_l为拉链表。user_info表及数据:user_info_l表及转换后的数据:kettle的设计其实很简单,就一个“表输入”一个“...
阅读全文
摘要:安装Oracle我用的是Win10 64位,官网下载64位 Oracle 12c,两个文件。解压第一个文件之后安装,但是安装到一半错误,提示缺失文件。后来发现原来两个文件要单独解压,解压后根据目录合并在一起。再次安装,安装到88%卡住不动了。我以为安装又失败了,就关了,但是发现可以用,就这么用吧。创...
阅读全文
摘要:一般是因为Kettle缺少JDBC连接模块,从MySQL安装目录拷贝jdbc连接模块到Kettle的lib目录下即可。
阅读全文
摘要:安装kettle步骤:1. 安装jdk2. 安装kettle3. 配置环境变量 变量名:PENTAHO_JAVA_HOME 变量值:jdk安装目录 4. kettle安装目录下运行kitchen.bat,查看安装是否有异常5. kettle安装目录下运行Spoon.bat,运行kettle
阅读全文

浙公网安备 33010602011771号