scrapy框架

使用Scrapy抓取一个网站需要四个步骤:

  1. 创建一个Scrapy项目
  2. 定义Item容器
  3. 编写爬虫
  4. 存储内容

1、scrapy遵循的最通用的流程为UR²IM流程。

1)URL

2)请求(Request)

3)响应(Response)

4)Item  ==>存入数据库

5)更多的URL(more URL)  ==>再到2)请求。

 

2、一个Scrapy项目

1)创建工程

scrapy startproject Scrapydemo01

2)生成爬虫basic

scrapy genspider basic web

3)定义要抓取的数据(通过Scrapy Item定义),即items.py

import scrapy

from scrapy.item import Item,Field

class Scrapydemo01Item(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    #pass

    title=Field()

    price=Field()

    description=Field()

    address=Field()

    image_urls=Field()

    images=Field()

    location=Field()

    url=Field()

    project=Field()

    spider=Field()

    server=Field()

    date=Field()

4)basic.py添加web网址及爬虫细节。

cd Scrapydemo01/Scrapydemo01/spiders

5)运行爬虫:

scrapy crawl basic
scrapy crawl basic -o item.json    #保存文件

scrapy parse --spider=basic http://www.baidu.com    #执行spider,获取数据。

 

posted @ 2022-05-24 21:09  min222  阅读(38)  评论(0)    收藏  举报