scrapy之app02
下载中间件三大函数
- process_request(request,spider)拦截request
返回值(4种)
返回 None 正常情况是none
返回 request 重新放回队列
返回 response
raises IgnoreRequest 抛弃这个request
-
process_response(request,response,spider)拦截response
返回response 正常状态
返回request
raises IgnoreRequest
-
process_exception(request,exception,spider)处理process_request抛出的异常
返回None
返回request
返回response
request和response详解
request
-
encoding --------请求的转换编码
-
priority --------链接优先级
-
dont_filter ---------强制不过滤
-
errback ----------错误回调
-
copy() 复制对象
-
replace() 对对象参数进行替换

response
- copy() 复制对象
- replace() 对对象参数进行替换
- urljoin(): 将页面相对路径传入,返回绝对路径
- follow():传入一个相对路径直接返回一个request对象
F12的筛选操作关键词
- domain(域)显示指定域的资源
- has-response-header(响应头信息) 指定HTTP响应头的资源
- Is:使用is:running过滤出WebSocket资源
- larger-than(大于)显示大于指定大小的资源
- method:显示指定的HTTP方法检索的资源(是get还是post)
- mine-type:指定mine的资源
- scheme:显示通过不受保护的HTTP或受保护的HTTPS检索的资源
- set-cookie-domain(cookie域):显示具有set-cookie头,并且其domain属性与指定值匹配的资源
- set-cookie-name(cookie名):显示具有set-cookie头,并且其名称与指定值匹配的资源
- set-cookie-value(cookie值):显示具有set-cookie头,并且值与指定值匹配的资源
- status-code:状态码

浙公网安备 33010602011771号