实习僧网站招聘信息爬取以及可视化操作

目标：用Python抓取实习僧网站上数据分析相关岗位信息，并用Python做可视化分析

软件：Python 3.0 版本

一、实习僧网站爬虫介绍

实习僧网址：http://www.shixiseng.com/

在搜索框输入数据然后跳转到一下页面，Fn + f12 就能看到网页调试工具。

刷新页面，然后点进第一个链接

url 就是我们爬虫要用到的url, 其中k和p的含义已经解释了。点击尾页，可以知道共109页数据。

然后利用request Headers信息用来模拟浏览器登录。

网页上右键后查看源代码。我们要爬取职位名称，职位详情网址，月薪，工作地点等信息。写得正则表达为：

好了。基本工作完成，这就需要进一步构建代码了。

如何翻页，爬取下一页呢，就是利用循环对参数P的调整，实现整个页面的抓取。

然后就是对爬取字段的组合，并且写入excel文件。

需要用到： import xlwt #读写Excel 文件

最终运行代码，得到结果，共1085条记录，用时30秒多。

二、PTYHON数据分析

首先导入需要用到的包，然后读取Excel文件

得到：

网址数据暂时用不上因此就删除这两列

主要从薪酬，工作天数，工作地点和时间要求四个方面分析。

先看一个简单的：

1 工作天数的要求和分布

2 实习时间的要求

3 实习地点的分布

What the hell?

过滤掉频数小于5的

4 实习薪酬的水平

额同样的问题，，，

168个类别，所以挤成那个样子了。。。过滤掉频数小于10的。

总结一下：

实习地点：数据分析岗位实习北京和上海集中较多，然后是广州和深圳。其次是二线城市，成都，南京，杭州等。

工作天数：要求5天/周的实习最多，占比达到44.61%，其次是4/周和3/周。

实习时间：要求至少3个月的实习最多，其次是6个月，4个月。

实习薪酬：集中在100-120元区间上的最多。超过一半的实习工资超过了100。

--------------------------------------------------

第一次写，欢迎指正。

posted @ 2017-05-23 15:47 哈雷伍德阅读(2075) 评论(1) 收藏举报

刷新页面返回顶部