python爬虫 - 随笔分类 - 雨轩恋i

Python使用代理的方法

摘要：我们在做爬虫的过程中经常会遇到这样的情况：最初爬虫正常运行，正常抓取数据，一切看起来都是那么的美好，然而一杯茶的功夫可能就会出现错误，比如403 Forbidden；出现这样的原因往往是网站采取了一些反爬虫的措施，比如，服务器会检测某个IP在单位时间内的请求次数，如果超过了某个阈值，那么服务器会直接阅读全文

posted @ 2018-12-18 20:05 雨轩恋i 阅读(30070) 评论(0) 推荐(1)

Python的scrapy之爬取链家网房价信息并保存到本地

摘要：因为有在北京租房的打算，于是上网浏览了一下链家网站的房价，想将他们爬取下来，并保存到本地。先看链家网的源码。。房价信息都保存在 ul 下的li 里面爬虫结构：其中封装了一个数据库处理模块，还有一个user-agent池。。先看mylianjia.py # -*- coding: u 阅读全文

posted @ 2018-11-24 17:25 雨轩恋i 阅读(1679) 评论(0) 推荐(0)

python的爬虫代理设置

摘要：现在网站大部分都是反爬虫技术，最简单就是加代理，写了一个代理小程序。可以在自己的爬虫程序中加入这个程序，每次动态的使用代理，将爬虫程序伪装成浏览器，这样就不会被网站禁止了阅读全文

posted @ 2018-10-30 16:20 雨轩恋i 阅读(2838) 评论(3) 推荐(0)

雨轩恋i

随笔分类 - python爬虫

公告