Scrapy 爬虫之 LinkExtractor 使用

主要功能

该方法可以爬取一个页面中，符合指定正则表达式的所有链接，返回一个Link对象，具体如下：

import scrapy

from scrapy.linkextractors import LinkExtractor

def parse(self, response):

　　link_list = LinkExtractor(allow=("\d+.html")).extract_links(response)

返回的Link对象列表如下：

　　[Link(url='https://www.whzh-cw.com/du/104357/48614071.html', text='开始阅读', fragment='', nofollow=False),]

　
    然后进行遍历
    for Link in link_list:
　　　　name = Link.text
　　　　url = Link.url

posted @ 2020-11-02 19:33 过去围观阅读(391) 评论(0) 收藏举报

刷新页面返回顶部