08 2021 档案

摘要:一直使用xpath和css提取数据,但是有些时候需要处理一些数字,使用正则相对来说更简单些 比如 只想提取a标签里的245,用xpath和css还需要特殊处理 1 page_list = response.xpath( 2 '//div[@class="paging_content"]/div[@c 阅读全文
posted @ 2021-08-25 15:09 kakaok 阅读(259) 评论(0) 推荐(0)
摘要:之前处理超时异常时都在downloadmiddleware中处理,但是总感觉很费劲 今天查文档发现可在errback回调中处理 from scrapy.spidermiddlewares.httperror import HttpError from twisted.internet.error i 阅读全文
posted @ 2021-08-24 18:03 kakaok 阅读(673) 评论(0) 推荐(0)