scrapy

scrapy startproject myproject #创建项目

scrapy genspider mydomain mydomain.com #创建spider

scrapy crawl myspider #使用spider进行爬取

scrapy list #列出当前项目中所有可用的spider

Spider类
并没有提供什么特殊的功能。其仅仅请求给定的 start_urls/start_requests ，
并根据返回的结果(resulting responses)调用spider的 parse 方法。

Selectors
构建于 lxml 库之上
.xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表
response.xpath('//title/text()').extract()
response.css('title::text').extract()

pipelines
用来存储数据

posted @ 2018-03-12 20:26 Hsinwang 阅读(123) 评论(0) 收藏举报

刷新页面返回顶部

Hsin wang

scrapy

公告