scrapy框架
使用Scrapy抓取一个网站需要四个步骤:
- 创建一个Scrapy项目
- 定义Item容器
- 编写爬虫
- 存储内容
1、scrapy遵循的最通用的流程为UR²IM流程。
1)URL
2)请求(Request)
3)响应(Response)
4)Item ==>存入数据库
5)更多的URL(more URL) ==>再到2)请求。
2、一个Scrapy项目
1)创建工程
scrapy startproject Scrapydemo01
2)生成爬虫basic
scrapy genspider basic web
3)定义要抓取的数据(通过Scrapy Item定义),即items.py
import scrapy
from scrapy.item import Item,Field
class Scrapydemo01Item(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
#pass
title=Field()
price=Field()
description=Field()
address=Field()
image_urls=Field()
images=Field()
location=Field()
url=Field()
project=Field()
spider=Field()
server=Field()
date=Field()
4)basic.py添加web网址及爬虫细节。
cd Scrapydemo01/Scrapydemo01/spiders
5)运行爬虫:
scrapy crawl basic
scrapy crawl basic -o item.json #保存文件
scrapy parse --spider=basic http://www.baidu.com #执行spider,获取数据。
浙公网安备 33010602011771号