scrapy

scrapy startproject myproject #创建项目

scrapy genspider mydomain mydomain.com #创建spider

scrapy crawl myspider #使用spider进行爬取

scrapy list #列出当前项目中所有可用的spider


Spider类
并没有提供什么特殊的功能。 其仅仅请求给定的 start_urls/start_requests ,
并根据返回的结果(resulting responses)调用spider的 parse 方法。

Selectors
构建于 lxml 库之上
.xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表
response.xpath('//title/text()').extract()
response.css('title::text').extract()

pipelines
用来存储数据

posted @ 2018-03-12 20:26  Hsinwang  阅读(112)  评论(0编辑  收藏  举报