国家企业信用公告系统爬虫
一、直接请求报错
[scrapy.spidermiddlewares.httperror] INFO: Ignoring response <521 http://www.gsxt.gov.cn/corp-query-entprise-info-xxgg-100000.html>: HTTP status code is not handled or not allowed
二、防爬措施,失信人公告每次成功请求,都需要携带cookiesx信息,并且一个cookies信息要和一个User-Agent和代理IP绑定,才能请求成功;如果一个cookies请求过于频繁,会被限制。
三、解决方法,实现专用cookies中间件
浙公网安备 33010602011771号