scrapy框架

使用Scrapy抓取一个网站需要四个步骤:

1、scrapy遵循的最通用的流程为UR²IM流程。

1）URL

2）请求（Request）

3）响应（Response）

4）Item ==>存入数据库

5）更多的URL（more URL） ==>再到2）请求。

2、一个Scrapy项目

1）创建工程

scrapy startproject Scrapydemo01

2）生成爬虫basic

scrapy genspider basic web

3）定义要抓取的数据（通过Scrapy Item定义），即items.py

import scrapy

from scrapy.item import Item,Field

class Scrapydemo01Item(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

#pass

title=Field()

price=Field()

description=Field()

address=Field()

image_urls=Field()

images=Field()

location=Field()

url=Field()

project=Field()

spider=Field()

server=Field()

date=Field()

4）basic.py添加web网址及爬虫细节。

cd Scrapydemo01/Scrapydemo01/spiders

5）运行爬虫：

scrapy crawl basic
scrapy crawl basic -o item.json #保存文件

scrapy parse --spider=basic http://www.baidu.com #执行spider，获取数据。

posted @ 2022-05-24 21:09 min222 阅读(38) 评论(0) 收藏举报

刷新页面返回顶部