随笔分类 - python爬虫
摘要:我们在做爬虫的过程中经常会遇到这样的情况:最初爬虫正常运行,正常抓取数据,一切看起来都是那么的美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden;出现这样的原因往往是网站采取了一些反爬虫的措施,比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了某个阈值,那么服务器会直接
阅读全文
摘要:因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地。 先看链家网的源码。。房价信息 都保存在 ul 下的li 里面 爬虫结构: 其中封装了一个数据库处理模块,还有一个user-agent池。。 先看mylianjia.py # -*- coding: u
阅读全文
摘要:现在网站大部分都是反爬虫技术,最简单就是加代理,写了一个代理小程序。 可以在自己的爬虫程序中加入这个程序,每次动态的使用代理,将爬虫程序伪装成浏览器,这样就不会被网站禁止了
阅读全文

浙公网安备 33010602011771号