scrapy框架学习（三）项目启动

项目启动

1.seting.py配置文件设置好之后，在爬虫文件中构建解析代码

spider_QiuShi.py

import scrapy


class SpiderQiushiSpider(scrapy.Spider):
    #爬虫名字
    name = 'spider_QiuShi'
    #域名限制列表，列表值可以设置多个，限制爬虫只爬取该域名下的网页
    allowed_domains = ['www.qiushibaike.com']
    #初始爬取地址
    start_urls = ['http://www.qiushibaike.com/text']

    def parse(self, response):
        div_list= response.xpath('//div[@class="col1 old-style-col1"]/div')
        items=[]
        for li in div_list:
            name= li.xpath('.//h2/text()')[0].extract().strip('\n').strip(' ')
            face_src= "https:"+li.xpath('.//div[1]/a[1]/img/@src')[0].extract().split('?')[0]
            item= {
                "名称":name,
                "链接":face_src
            }
            items.append(item)

        print(items)
        return items

2.response的常用方法和属性
　　text: 字符串类型
　　body: 字节类型
　　xpath(): scrapy内部已经集成了xpath，直接使用即可，但这里的xpath其他包中的xpath略有不同，定位后提取出来的元素为selector对象

　　因此要获取其中的值需要使用.extract()方法。

3.运行爬虫

scrapy crawl spider_QiuShi

4.指定格式执行输出

scrapy crawl spider_QiuShi -o qiushibaike.json
scrapy crawl spider_QiuShi -o qiushibaike.xml
scrapy crawl spider_QiuShi -o qiushibaike.csv

posted on 2021-01-26 23:46 逐梦的猫阅读(78) 评论(0) 收藏举报

刷新页面返回顶部

scrapy框架学习（三）项目启动

项目启动

1.seting.py配置文件设置好之后，在爬虫文件中构建解析代码

4.指定格式执行输出

导航

公告