scrapy之app02

下载中间件三大函数

  1. process_request(request,spider)拦截request

​ 返回值(4种)

​ 返回 None 正常情况是none

​ 返回 request 重新放回队列

​ 返回 response

​ raises IgnoreRequest 抛弃这个request

  1. process_response(request,response,spider)拦截response

    返回response 正常状态

    返回request

    raises IgnoreRequest

  2. process_exception(request,exception,spider)处理process_request抛出的异常

    返回None

    返回request

    返回response

request和response详解

request

  1. encoding --------请求的转换编码

  2. priority --------链接优先级

  3. dont_filter ---------强制不过滤

  4. errback ----------错误回调

  5. copy() 复制对象

  6. replace() 对对象参数进行替换

    ![](C:\Users\Asus\Documents\Tencent Files\185433470\FileRecv\MobileFile\Image\1.png)

response

  1. copy() 复制对象
  2. replace() 对对象参数进行替换
  3. urljoin(): 将页面相对路径传入,返回绝对路径
  4. follow():传入一个相对路径直接返回一个request对象

F12的筛选操作关键词

  1. domain(域)显示指定域的资源
  2. has-response-header(响应头信息) 指定HTTP响应头的资源
  3. Is:使用is:running过滤出WebSocket资源
  4. larger-than(大于)显示大于指定大小的资源
  5. method:显示指定的HTTP方法检索的资源(是get还是post)
  6. mine-type:指定mine的资源
  7. scheme:显示通过不受保护的HTTP或受保护的HTTPS检索的资源
  8. set-cookie-domain(cookie域):显示具有set-cookie头,并且其domain属性与指定值匹配的资源
  9. set-cookie-name(cookie名):显示具有set-cookie头,并且其名称与指定值匹配的资源
  10. set-cookie-value(cookie值):显示具有set-cookie头,并且值与指定值匹配的资源
  11. status-code:状态码
posted @ 2020-04-20 10:26  Mario_ok  阅读(145)  评论(0)    收藏  举报