01_概念及基本操作
kettle是一款开源的ETL工具,针对数据的:抽取(Extract)、转换(Transform)、加载(Load)。
kettle主要子程序及启动方式
Spoon.bat
图形化界面的“作业和转换”的设计器
Pan.bat
命令行方式执行“转换”
Kitchen.bat
命令行方式执行“作业”
Carte.bat
启动web服务,用于kettle的远程运行或集群运行
Encr.bat
密码加密
说明:
以上文件都是kettle根目录中的文件。
.bat文件是dos下的批处理文件
kettle最后的结果,实际是一个“数据加工处理的流程”,然后 “数据流进再流出”,其中的数据相当于“二维表数据”。
kettle转换(Transformation)
包含许多数据处理步骤(Step),步骤间通过带箭头的连接线连接
kettle作业(Job)
包含许多作业项(Job Entry),转换也是一个作业项
操作说明
步骤:拖拽式操作;步骤间的连线:shift+左键
kettle中常用步骤
输入_生成随机数
输出_文本文件输出
转换_字段选择
转换_增加常量
转换_计算器
流程-过滤
一个输入,两个输出
流程-Switch/Case
一个输入,多个输出
流程_空操作
相当于数据处理后的垃圾箱,什么也不做
连接_记录集连接
相当于SQL中连接两个表的where子句
连接_记录关联(笛卡尔输出)
相当于输出所有可能的组合,不管是否重复,记录数:num1*num2
统计_分组
相当于SQL中分组后的聚合函数

浙公网安备 33010602011771号