摘要:
如何移除所获取内容中多余的html标签? 通过w3lib模块和re模块 阅读全文
posted @ 2017-08-16 17:58
梦_鱼
阅读(2850)
评论(0)
推荐(0)
摘要:
connection:连接redis最基本文件 default:默认值设置文件 dupefiler_key 保存指纹 dupefilter:替换scrapy默认的url去重器 piklecompat:序列化 pipelines:将item保存到redis中,实现item分布式保存 queue:实现3 阅读全文
posted @ 2017-08-16 09:30
梦_鱼
阅读(156)
评论(0)
推荐(0)
摘要:
什么是数据收集器? 数据以key/value形式存在,收集一些状态,简化数据收集的状态 计算到底发送了多少request等等统计信息 如何对404页面进行设置? 通过response.status等于判断状态是否为404,然后把失败的URL添加到初始化的失败列表中,设置失败计数收集器 在spider 阅读全文
posted @ 2017-08-16 09:20
梦_鱼
阅读(214)
评论(0)
推荐(0)