[大数据技术]Kettle对前程无忧软件相关职位进行数据清洗

　　爬虫代码参考：https://www.cnblogs.com/zlc364624/p/12377019.html

1、原始数据格式

　　爬取格式如下图：

　　用空格隔开，数据属性分别为名称、公司名称、地址、薪酬、日期、网址

2、数据清洗

　　　　数据清洗的所有步骤

　　分为以下几步：

　　 在表输入中去除存在null的记录。原因是含有null的脏数据进行数据处理容易出错。　
　　 增加校验列，进行排序，并且去除重复记录。
　　 将例如 2-4万/月切分为四个属性值最低薪资：2 最高薪资：4 单位：万时长：月。
　　 利用过滤记录再去除处理后含null的记录。
　　 将北京-朝阳区处理为北京容易进行处理

教学视频可观看：http://113.31.104.47/portal/#/course/preview/b34d160db64624732ef152a1118af11a?courseId=1b7e84f4eb8552536e2267093dbd7972&fileId=2020021813_ef5f0bf841d95717a64dfaad4b2af879_lv0.mp4

3、处理结果

　　处理后可以较为方便的进行数据统计与结果分析。

　　

posted @ 2020-02-29 15:33 雾霾王者阅读(336) 评论(0) 收藏举报

刷新页面返回顶部