01 2019 档案

数据清洗(二):岗位职责与要求的分离
摘要:在现有的所有互联网招聘网站上,岗位信息里的所有条目都是在同一级标签下。因此,岗位信息作为一个整体,就需要额外的操作把要求与职责分离开。鉴于岗位信息里数据格式的不统一,因此博主放弃了使用正则表达式的方法,而是选择了模糊匹配+结构化匹配,将字符串比较的问题转化成了概率问题。 一、数据存储结构 在之前写的 阅读全文

posted @ 2019-01-30 20:29 Magic激流 阅读(1409) 评论(0) 推荐(1)

Hadoop网站日志数据清洗——正则表达式实现
摘要:周旭龙前辈的Hadoop学习笔记—网站日志分析项目案例简明、经典,业已成为高校大数据相关专业的实验项目。上周博主也完成了这个实验,不同于周前辈使用特殊符号切割字符串得到数据的做法,博主使用了正则表达式来匹配数据。在此将我的思路及代码张贴出来,以供后来者学习借鉴。 一、数据情况分析 1.1、数据格式概 阅读全文

posted @ 2019-01-03 20:45 Magic激流 阅读(2440) 评论(1) 推荐(0)

导航