01_概念及基本操作

kettle是一款开源的ETL工具,针对数据的:抽取(Extract)、转换(Transform)、加载(Load)。

 

 

 

kettle主要子程序及启动方式

Spoon.bat
      图形化界面的“作业和转换”的设计器
Pan.bat
      命令行方式执行“转换”
Kitchen.bat
      命令行方式执行“作业”
Carte.bat
      启动web服务,用于kettle的远程运行或集群运行
Encr.bat
      密码加密

说明:
      以上文件都是kettle根目录中的文件。
      .bat文件是dos下的批处理文件

 

 

 

kettle最后的结果,实际是一个“数据加工处理的流程”,然后 “数据流进再流出”,其中的数据相当于“二维表数据”。

 

 


kettle转换(Transformation)
      包含许多数据处理步骤(Step),步骤间通过带箭头的连接线连接
kettle作业(Job)
      包含许多作业项(Job Entry),转换也是一个作业项

 

 

 

操作说明
      步骤:拖拽式操作;步骤间的连线:shift+左键

 

 

 

kettle中常用步骤

输入_生成随机数

输出_文本文件输出

转换_字段选择
转换_增加常量
转换_计算器

流程-过滤
      一个输入,两个输出
流程-Switch/Case
      一个输入,多个输出
流程_空操作
      相当于数据处理后的垃圾箱,什么也不做

连接_记录集连接
      相当于SQL中连接两个表的where子句
连接_记录关联(笛卡尔输出)
      相当于输出所有可能的组合,不管是否重复,记录数:num1*num2

统计_分组
      相当于SQL中分组后的聚合函数

posted @ 2019-05-29 11:19  林远  阅读(156)  评论(0)    收藏  举报