随笔分类 - 爬虫
摘要:一、dupefilter去重 1、编写类 dupefilters.py from scrapy.dupefilter import BaseDupeFilter from scrapy.utils.request import request_fingerprint #自定义去重规则 class X
阅读全文
摘要:注意:pipeline是所有爬虫公用的,如果想要给某个爬虫定制需要使用spider参数自己进行处理。 流程: 1、先写pipeline类,默认会生成 #pipelines.py class XXXPipeline(object): def process_item(self, item, spide
阅读全文
摘要:wusir Twisted下载 Twisted安装不成功解决办法:把Twisted-17.1.0-cp36-cp36m-win_amd64.whl改为Twisted-17.1.0-py36-none-any.whl然后再进行安装。 Scrapy是一个大而全的爬虫组件; Scrapy是一个为了爬取网站
阅读全文
摘要:wusir requests模块 import requests """ # 1. 方法 requests.get requests.post requests.put requests.delete ... requests.request(method='POST') """ # 2. 参数 "
阅读全文
浙公网安备 33010602011771号