实习僧网站招聘信息爬取以及可视化操作
目标:用Python抓取实习僧网站上数据分析相关岗位信息,并用Python做可视化分析
软件:Python 3.0 版本
一、 实习僧网站爬虫介绍
实习僧网址:http://www.shixiseng.com/
在搜索框输入 数据 然后跳转到一下页面,Fn + f12 就能看到网页调试工具。
刷新页面,然后点进第一个链接

url 就是我们爬虫要用到的url, 其中k和p的含义已经解释了。点击尾页,可以知道共109页数据。

然后利用request Headers信息用来模拟浏览器登录。

网页上右键后查看源代码。我们要爬取职位名称,职位详情网址,月薪,工作地点等信息。写得正则表达为:

好了。基本工作完成,这就需要进一步构建代码了。
如何翻页,爬取下一页呢,就是利用循环对参数P的调整,实现整个页面的抓取。

然后就是对爬取字段的组合,并且写入excel文件。
需要用到: import xlwt #读写Excel 文件

最终运行代码,得到结果,共1085条记录,用时30秒多。


二、PTYHON数据分析
首先导入需要用到的包,然后读取Excel文件

得到:

网址数据暂时用不上 因此就删除这两列

主要从薪酬,工作天数,工作地点和时间要求四个方面分析。

先看一个简单的:
1 工作天数的要求和分布


2 实习时间的要求

3 实习地点的分布

What the hell?

过滤掉频数小于5的

4 实习薪酬的水平

额 同样的问题,,,

168个类别,所以挤成那个样子了。。。过滤掉频数小于10的。


总结一下:
实习地点:数据分析岗位实习北京和上海集中较多,然后是广州和深圳。其次是二线城市,成都,南京,杭州等。
工作天数:要求5天/周的实习最多,占比达到44.61%,其次是4/周和3/周。
实习时间:要求至少3个月的实习最多,其次是6个月,4个月。
实习薪酬:集中在100-120元区间上的最多。超过一半的实习工资超过了100。
--------------------------------------------------
第一次写,欢迎指正。


浙公网安备 33010602011771号