摘要: 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin 阅读全文
posted @ 2017-07-17 16:39 fan-tastic 阅读(17830) 评论(1) 推荐(1) 编辑
摘要: Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 我们以通过简单的分析源码来理解我通常在写spiders下写爬虫的时候,我们并没有写start_requests来处理start_urls中的 阅读全文
posted @ 2017-07-17 00:04 fan-tastic 阅读(8670) 评论(0) 推荐(4) 编辑