随笔分类 -  爬虫

摘要:一、dupefilter去重 1、编写类 dupefilters.py from scrapy.dupefilter import BaseDupeFilter from scrapy.utils.request import request_fingerprint #自定义去重规则 class X 阅读全文
posted @ 2020-07-13 16:09 zh_小猿 阅读(354) 评论(0) 推荐(0)
摘要:注意:pipeline是所有爬虫公用的,如果想要给某个爬虫定制需要使用spider参数自己进行处理。 流程: 1、先写pipeline类,默认会生成 #pipelines.py class XXXPipeline(object): def process_item(self, item, spide 阅读全文
posted @ 2020-07-13 15:32 zh_小猿 阅读(205) 评论(0) 推荐(0)
摘要:wusir Twisted下载 Twisted安装不成功解决办法:把Twisted-17.1.0-cp36-cp36m-win_amd64.whl改为Twisted-17.1.0-py36-none-any.whl然后再进行安装。 Scrapy是一个大而全的爬虫组件; Scrapy是一个为了爬取网站 阅读全文
posted @ 2020-07-12 17:25 zh_小猿 阅读(257) 评论(0) 推荐(0)
摘要:wusir requests模块 import requests """ # 1. 方法 requests.get requests.post requests.put requests.delete ... requests.request(method='POST') """ # 2. 参数 " 阅读全文
posted @ 2020-07-10 10:06 zh_小猿 阅读(190) 评论(0) 推荐(0)