随笔分类 -  数据清洗

数据清洗(二):岗位职责与要求的分离
摘要:在现有的所有互联网招聘网站上,岗位信息里的所有条目都是在同一级标签下。因此,岗位信息作为一个整体,就需要额外的操作把要求与职责分离开。鉴于岗位信息里数据格式的不统一,因此博主放弃了使用正则表达式的方法,而是选择了模糊匹配+结构化匹配,将字符串比较的问题转化成了概率问题。 一、数据存储结构 在之前写的 阅读全文

posted @ 2019-01-30 20:29 Magic激流 阅读(1406) 评论(0) 推荐(1)

数据清洗(一):关联数据的替换
摘要:有时我们的数据里充满了各种简写或标记,而在处理、展示数据的过程中,我们需要的是数据各字段的详细名称,因此就需要对我们的数据集进行清洗与处理。前些天遇到一个某图书馆借阅数据,给出的要求是统计借阅图书的类别,数据里有每次借阅书籍的中图分类号,如"A122",'A'表示马列毛邓,'A1'表示马克思恩格斯著 阅读全文

posted @ 2018-12-07 21:47 Magic激流 阅读(1165) 评论(0) 推荐(0)

导航