kettle组件-输入

1:文本文件输入
     包含六个页签:文件,内容,错误处理,过滤,字段,其他输出字段
     文件:用于选中文件或目录,可以使用正则表达式
     内容:文件类型---保持默认CSV即可
    分隔符----指文本文件每个字段间的分区标志,不可见分隔符的输入方法:$[01]
    文本限定符----指当文本字段中有分隔符作为字段内容一部分时就需要文本限定符
    逃逸符-----针对文本限定符而言,当文本字段中出现文本限定符了,需要使用逃逸符
    头部-------规定字段行
    过滤:将包含有输入字符串的一行去除预览,若过滤字符串与过滤器位置不匹配,将不能去除预览
    字段:当点击自动获取时,会将内容中指定的头部以字段形式展出。

2:生成记录  

    用于自定义字段,类型,(若为时间类型还可设置格式),(若为数字类型还可设置长度和精度),值。     

    限制----用于限制展示的行数,设置单行值后若限制为多行,则会重复输出。     

    若设置为空串,则值即使定义了也不会预览到。     

    若字段定义为date类型,则格式必须选择。

3:生成随机数     

    手动填写字段     

    手动选择类型:可以生成随机数字,随机整数,随机字符串,UUID,UUID4,还有两种不认识的类型。

4:自定义常量数据     

    自定义常量数据要与生成记录区分开,生成记录只有一个页签,字段的定义和值在同一个页签,而自定义常量有两个页签,分别是元数据和数据,元数据用于设置字段的信息,若字段定义为date类型,则格式必须选择,而数据用于为定义的字段填充数据,用法类似于数据库中的建表并插入数据,此用法相比于生成记录要灵活很多。在元数据中定义的字段,会在数据中自动生成供填充数据。

5:获取表名     

     用于获取所连接数据中的所有表名,若勾选了包含数据库名称,则或将连接IP地址下的所有数据库名也输出,也可勾选存过,视图,还有,可以包含模式(具体啥意思,待后续再研究)。

     输出字段中包含:

     名称字段---设置中勾选内容的具体名称;

     类型字段----用于说明类型(是表,还是      数据库);

     表示是否为系统级字段----一般是系统级别;

     sql语句字段----用于展示建表语句,试了一下,建库语句为NULL

6:表输入     

     连接数据库,获取sql语句,从而展示对应查询中的数据。     

     允许简易转换:主要针对大字段的延迟转换(延迟转换性能更高,采用byte方式处理,否则就是string方式-----自动转换,提高性能)     

     替换sql语句中的变量:若sql查询语句中包含有变量,勾选此项将job工作中的变量替换为此变量,注意参数命名不要和系统参数命名冲突。     

     从步骤中插入数据是结合替换sql中的变量使用的,插入数据所代表的变量要和sql语句中的变量顺序一致。     

     执行每一行:对一列进行多条件判断,例如从步骤中插入数据中某一字段是sql查询中的变量,但是该列有多行数据,此时一个sql查询会逐一进行判断,并将判断的结果都返回。      类似于数据库中的in查询。

posted @ 2018-12-01 16:51  模拟素素  阅读(1099)  评论(0编辑  收藏  举报