kettle插件-kettle数据清洗插件,轻松处理脏数据

前面我们已经介绍了很多kettle插件,每个kettle插件都它的使用场景,我们在做数据同步ETL的过程中,势必要处理一些脏数据,把数据质量提高。今天我们一起来学习这这款数据清洗插件。

1、转换设计

1)生成记录 模拟数据输入

2)数据清洗 选择具体的数据清洗规则对数据进行清洗

3)写日志 输出清洗前和清洗后的数据

8125eb43-3fce-42f6-abed-1e65f707ffeb

 2、生成记录

简单填写三个字段,id,engName,chnName,如下图所示

a2f0457e-34c7-4ea4-b065-8038913a88a3

 3、清洗插件设置

1)选择待清洗的插件

2)设置规则

3)根据需求填写输出字段名

从图中可以看到,这里预设了20多个常用的清洗规则,根据需求自行选择,不满足需求,可以进行扩展。

截屏2025-09-14 22.07.57

 4、保存&运行

保存转换文件,点击运行按钮,运行正常。

1)id 字段,规则不做任何操作,原样输出。

2)engName=xiaojigang,规则单词首字母大写,输出Xiaojingang。

3)chnName=小金刚,规则汉子转手拼,输出XJG。

 

写在最后

今天,我们团队已经研发了将近100+款插件,360度无死角覆盖常见的业务场景,朋友们,老铁们,你们还缺什么功能的kettle插件,欢迎评论区留言探讨。

 

posted @ 2025-09-20 15:29  慕容尘轩  阅读(178)  评论(0)    收藏  举报