五、Scrapy框架(7)——下载器中间件
Downloader Middlewares(下载器中间件)
下载器中间件是引擎和下载器之间通信的中间件。在这个中间件中我们可以设置代理、更换请求头等来达到反的爬虫的目的。更写下载器中间件,可以在下载器中实现两个方法。一个process_request(self,request,spider),这个方法是在请求发送之前会执行,还有一个是process_response(self, request, response, spider),这个方法是数据下载到引擎之间执行。
process_request(self,request,spider)
这个方法是下载器在发送请求之前会执行的。一般可以在这个里面设置随机代理ip等。
- 参数:
- request:发送请求的request对象
- spider:发送请求的spider对象
- 返回值:
- 返回None:如果返回None,Scrapy将继续处理该request,执行其他中间件中的相应方法,直到合适的下载器处理函数被调用。
- 返回Response对象:Scrapy将不会调用任何其他的
process_request方法,将直接返回这个response对象。已经激活的中间件的process_response()方法则会在每个response返回时被调用。 - 返回Request对象:不再使用之前的request对象去下载数据,而是根据现在返回的request对象返回数据。
- 如果这个方法抛出了异常,则会调用
process_exception方法。
process_response(self, request, response, spider)
这个是下载器下载的数据到引擎中间会执行的方法。
- 参数:
- request:request对象
- response:被处理的response对象
- spider:spider对象
- 返回值:
- 返回Response对象:会将这个新的response对象传给其他中间件,最终传给爬虫。
- 返回Request对象:下载器链接被切断,返回的request会重新被下载器调度下载。
- 如果抛出一个异常,那么调用request的
errback方法,如果没有指定这个方法,那么会抛出一个异常。
随机请求头中间件
爬虫在频繁访问一个页面的时候,这个请求头如果一直保持一致。那么很容易被服务器发现,从而禁止掉这个请求头的访问。因此我们要在访问这个页面之前随机的更改请求头,这样才可以避免爬虫被抓。随机更改请求头,可以在下载中间件中实现。在请求发送给服务器之前,随机的选择一个请求头。这样就可以避免总使用一个请求头了。示例代码如下:
class UserAgentDownloadMiddleware(object):
USER_AGENTS = [
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
'Mozilla/4.0 (compatible;MSIE 8.0;Windows NT 6.0;Trident/4.0)'
]
def process_request(self,request,spider):
user_agent = random.choice(self.USER_AGENTS)
request.headers['User-Agent'] = user_agent
user-agent列表:http://www.useragentstring.com/pages/useragentstring.php?typ=Browser
ip代理池中间件
购买代理
在以下代理商中购买代理:
- 芝麻代理:http://http.zhimaruanjian.com/
- 太阳代理:http://http.taiyangruanjian.com
- 快代理:http://www.kuaidaili.com
- 讯代理:http://www.xdaili.com
- 蚂蚁代理:http://www.mayidaili.com
等购买代理。
使用ip代理池
1.示例代码如下:
class IPProxyDownloadMiddleware(object):
PROXIES = [
"5.196.189.50:8080",
'134.17.141.44:8080',
"178.49.136.84:8080",
"45.55.132.29:82",
"178.44.185.15:8080"
]
def process_request(self,request,spider):
proxy = "121.199.6.124:16816"
user_password= "970138074:rcdj35ur"
request.meta['proxy'] = proxy
request.headers['Proxy-Authorization'] = 'Basic' + base64.b64encode(user_password.encode('utf-8')).decode('utf-8')
2.独享代理池设置
class IPProxyDownloadMiddleware(object):
def process_request(self,request,spider):
proxy = "121.199.6.124:16816"
user_password= "970138074:rcdj35ur"
request.meta["proxy"] = proxy
b64_user_passwrod = base64.b64encode(user_password.encode('utf-8'))
request.headers['Proxy-Authorization'] = 'Basic' + b64_user_passwrod.decode('utf-8')
浙公网安备 33010602011771号