scrapy框架学习(三)项目启动

项目启动

1.seting.py配置文件设置好之后,在爬虫文件中构建解析代码

spider_QiuShi.py

import scrapy


class SpiderQiushiSpider(scrapy.Spider):
    #爬虫名字
    name = 'spider_QiuShi'
    #域名限制列表,列表值可以设置多个,限制爬虫只爬取该域名下的网页
    allowed_domains = ['www.qiushibaike.com']
    #初始爬取地址
    start_urls = ['http://www.qiushibaike.com/text']

    def parse(self, response):
        div_list= response.xpath('//div[@class="col1 old-style-col1"]/div')
        items=[]
        for li in div_list:
            name= li.xpath('.//h2/text()')[0].extract().strip('\n').strip(' ')
            face_src= "https:"+li.xpath('.//div[1]/a[1]/img/@src')[0].extract().split('?')[0]
            item= {
                "名称":name,
                "链接":face_src
            }
            items.append(item)

        print(items)
        return items

2.response的常用方法和属性
  text: 字符串类型
  body: 字节类型
  xpath(): scrapy内部已经集成了xpath,直接使用即可,但这里的xpath其他 包中的xpath略有不同,定位后提取出来的元素为selector对象

  因此要获取其中的值需要使用.extract()方法。

3.运行爬虫

scrapy crawl spider_QiuShi

 

4.指定格式执行输出

scrapy crawl spider_QiuShi  -o qiushibaike.json
scrapy crawl spider_QiuShi  -o qiushibaike.xml
scrapy crawl spider_QiuShi  -o qiushibaike.csv

posted on 2021-01-26 23:46  逐梦的猫  阅读(78)  评论(0)    收藏  举报

导航