吉阿吉

国家企业信用公告系统爬虫

一、直接请求报错

  [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <521 http://www.gsxt.gov.cn/corp-query-entprise-info-xxgg-100000.html>: HTTP status code is not handled or not allowed

 

二、防爬措施,失信人公告每次成功请求,都需要携带cookiesx信息,并且一个cookies信息要和一个User-Agent和代理IP绑定,才能请求成功;如果一个cookies请求过于频繁,会被限制。

 

三、解决方法,实现专用cookies中间件

posted on 2021-04-20 15:31  吉阿吉  阅读(708)  评论(0)    收藏  举报

导航