Scrapy 爬虫之 LinkExtractor 使用

主要功能

该方法可以爬取一个页面中,符合指定正则表达式的所有链接,返回一个Link对象,具体如下:

import scrapy

from scrapy.linkextractors import LinkExtractor

def parse(self, response):

  link_list = LinkExtractor(allow=("\d+.html")).extract_links(response)

       返回的Link对象列表如下:

  [Link(url='https://www.whzh-cw.com/du/104357/48614071.html', text='开始阅读', fragment='', nofollow=False),]

 
然后进行遍历
for Link in link_list:
    name = Link.text
    url = Link.url
    
posted @ 2020-11-02 19:33  过去围观  阅读(391)  评论(0)    收藏  举报