Scrapy 爬虫之 LinkExtractor 使用
主要功能
该方法可以爬取一个页面中,符合指定正则表达式的所有链接,返回一个Link对象,具体如下:
import scrapy
from scrapy.linkextractors import LinkExtractor
def parse(self, response):
link_list = LinkExtractor(allow=("\d+.html")).extract_links(response)
返回的Link对象列表如下:
[Link(url='https://www.whzh-cw.com/du/104357/48614071.html', text='开始阅读', fragment='', nofollow=False),]
然后进行遍历
for Link in link_list:
name = Link.text
url = Link.url
浙公网安备 33010602011771号