随笔分类 - scrapy
摘要:from scrapy import signalsfrom scrapy.exporters import CsvItemExporterclass JsgovcspiderPipeline(object): def __init__(self): self.files = {} @classme
阅读全文
摘要:一、选取节点常用的路劲表达式: 二、谓语 谓语被嵌在方括号内,用来查找某个特定的节点或包含某个制定的值的节点 实例: 三、通配符 Xpath通过通配符来选取未知的XML元素 四、取多个路径 使用“|”运算符可以选取多个路径 五、Xpath轴 轴可以定义相对于当前节点的节点集 六、功能函数 使用功能函
阅读全文
摘要:Refer to :https://doc.scrapy.org/en/latest/topics/selectors.html#topics-selectors
阅读全文
摘要:1 引擎:Hi!Spider, 你要处理哪一个网站? 2 Spider:老大要我处理xxxx.com。 3 引擎:你把第一个需要处理的URL给我吧。 4 Spider:给你,第一个URL是xxxxxxx.com。 5 引擎:Hi!调度器,我这有request请求你帮我排序入队一下。 6 调度器:好的
阅读全文
摘要:Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。 Dow
阅读全文
摘要:1.安装python并配置好环境变量 2.更新pip ,这步操作时遇到了问题,更新超时了,所以加上--default-timeout来解决超时问题:python -m pip --default-timeout=100 install --upgrade pip 3.安装lxml :pip ints
阅读全文

浙公网安备 33010602011771号