2020年大三下学期第四周学习心得

下载安装kettle。我的版本为7.0.0.0

安装完成后,双击spoon.dat,进入kettle。

 

(等待几秒)

 

 

 首先做csv文件导入,在数据库中(我用的辅助工具nevicat),将要导入的表的字段进行创建,并创建该表。(尽量将内容长度长的字段类型设置为text而不是varchar)

 

 

 

 创建一个转换。(如图)

 

创建DB连接。

 

 

 

 双击。(填写自己数据库连接的相关信息,记得在kettle文件lib目录下添加mysql连接驱动包)

 

 

 

 

可以自动获取csv的字段。

 

 

 

之间连接(shift+左键连接)

 

 

 

将自己数据库字段与csv文件的字段相对应。(源字段为csv的字段,目标字段是数据库表字段)

 之后点击执行即可。(添加就完成了)

我们接下来进行排序、映射和去重。(这是个新的转换,记得重新创建DB连接)

 

 

 首先创新一个新的表(表字段跟之前的表一样,将字段复制过来就行(我们定义为final_test2))

 

 

 将之前的表所有数据select出来。

按照字段序号进行排序,该字段不能为varchar或者text类型,在这我设置的类型为int,不然会出现错误。

 

 

 接下来值映射(我认为就是修改)将查出来的结果字段为省市的内容为河北的修改为河北省,北京修改为北京市,空值修改为天津市。

进行去重(根据字段成果名称去重)。

 

 

将清洗结果输出到新表中。

 

 

 运行整个作业。

 

 数据库截图。

 

posted @ 2020-03-06 09:29  Double晨  阅读(206)  评论(0编辑  收藏  举报