scrapy 提取XML文档

import requests
import scrapy

url = 'http://xml文件的地址'
# 获取 xml 文件
res = requests.get(url)
# 替换，就是这么暴力
text = res.text.replace('<![CDATA[', '').replace(']]>', '')
# 创建一个 Selector 类的实例
sel = scrapy.Selector(text=text)
# 使用 xpath 选择器
year_list = sel.xpath('//year/text()').extract()

posted @ 2019-05-29 15:34 篓子阅读(905) 评论(0) 收藏举报