摘要: 如何移除所获取内容中多余的html标签? 通过w3lib模块和re模块 阅读全文
posted @ 2017-08-16 17:58 梦_鱼 阅读(2850) 评论(0) 推荐(0)
摘要: connection:连接redis最基本文件 default:默认值设置文件 dupefiler_key 保存指纹 dupefilter:替换scrapy默认的url去重器 piklecompat:序列化 pipelines:将item保存到redis中,实现item分布式保存 queue:实现3 阅读全文
posted @ 2017-08-16 09:30 梦_鱼 阅读(156) 评论(0) 推荐(0)
摘要: 什么是数据收集器? 数据以key/value形式存在,收集一些状态,简化数据收集的状态 计算到底发送了多少request等等统计信息 如何对404页面进行设置? 通过response.status等于判断状态是否为404,然后把失败的URL添加到初始化的失败列表中,设置失败计数收集器 在spider 阅读全文
posted @ 2017-08-16 09:20 梦_鱼 阅读(214) 评论(0) 推荐(0)