爬取拉勾网

爬取的url:https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=

 

 爬取职位名称,薪水,公司,待遇这些

抓包,找到信息加载为一个post请求返回

 

查看他携带的数据,里面是关键字(python)和页数(pn),这个sid每次都会改变,经测试,该post请求主要检查的是cookies,这个sid不需要(一次一次试出来的)

 

 

 既然需要携带cookie,那我们首先建立一个session连接,获得cookie

1 s.get(url, headers=headers, timeout=3)
2 cookie = s.cookies

之后我们再用这个cookie构造post请求

1 response = s.post(url2, data=data, headers=headers, cookies=cookie)
2 html = response.text

成功返回json数据,之后解析json取出我们需要的数据就可以了

 1 json_data = json.loads(html)
 2 resulet = json_data['content']['positionResult']['result']
 3 for datas in resulet:
 4     positionName = datas['positionName']
 5     companyShortName = datas['companyShortName']
 6     companySize = datas['companySize']
 7     salary = datas['salary']
 8     workYear = datas['workYear']
 9     positionAdvantage = datas['positionAdvantage']
10     city = datas['city']
11     firstType = datas['firstType']
12     secondType = datas['secondType']

最后将数据写入excel

 

 取出薪水和公司名称做一个简单的可视化

 

 

 

 可以看到成都的python岗位平均薪资12 - 20k

最低工资2k,最高工资60k

在20 - 30k工资的人数占比最高为30%,0-10k的人数占比还是挺低的,当然都有学历和工作经验的要求(我就懒得分析了)

 

posted @ 2020-04-30 10:50  TrueDZ  阅读(697)  评论(5编辑  收藏  举报