08 2021 档案

scrapy 正则提取数据

摘要：一直使用xpath和css提取数据，但是有些时候需要处理一些数字，使用正则相对来说更简单些比如只想提取a标签里的245，用xpath和css还需要特殊处理 1 page_list = response.xpath( 2 '//div[@class="paging_content"]/div[@c 阅读全文

posted @ 2021-08-25 15:09 kakaok 阅读(275) 评论(0) 推荐(0)

scrapy 在spider中处理超时

摘要：之前处理超时异常时都在downloadmiddleware中处理，但是总感觉很费劲今天查文档发现可在errback回调中处理 from scrapy.spidermiddlewares.httperror import HttpError from twisted.internet.error i 阅读全文

posted @ 2021-08-24 18:03 kakaok 阅读(686) 评论(0) 推荐(0)

kakaok

08 2021 档案

公告