导航

公告

scrapy 琐碎的东西

1、深度指定

DEPTH_LIMIT=1

2、常用命令

scrapy startproject name

scrapy genspider name name.com

scrapy crawl name

3、结构

4、目录

5、多pipeline情况

权重高的必须在process_item()里 return item才能使下一个pipeline生效

如果不想交给下一个，可以

1 from scrapy.exceptions import DropItem
2 
3 def process_item(self, item, spider):
4     raise DropItem()

表示丢弃

在from_crawler(cls, crawler)中

用crawler.setting.get('') 读取配置文件

6 yield Request(url=url, callback=self.parse)

反复执行解析方法

7 yield Request(url, meta={'name':name}, call_back=self.parse)

　　使用meta进行传参

　　在parse中

　　使用 name = response.meta['name']来接收参数

8 辅助工具：chrome + xpath helper 插件

　　便于分析网页结构，抽取可用内容

posted on 2018-06-06 23:15 干炸牛_bian 阅读(106) 评论(0) 收藏举报

刷新页面返回顶部