python爬虫之xpath
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此,对 XPath 的理解是很多高级 XML 应用的基础。
xpath具体使用方法参考链接:https://www.jianshu.com/p/85a3004b5c06
在python爬虫中,要从爬取的html文件中快速定位并读取指定元素的数据,可以使用xpath方法。
1.python3.7中直接导入etree是会出错的,需要使用如下方法导入:
from lxml import html
etree = html.etree
2.谷歌浏览器中安装Xpath Helper插件可以方便测试xpath代码
3.爬取豆瓣网经典电影简介中,图片链接的代码如下:
url = "https://movie.douban.com/top250/"
req = request.Request(url=url,headers=headers) response = request.urlopen(req) html = response.read().decode("utf-8") content = etree.HTML(html) link_list = content.xpath("//div[@class='item']//div[@class='pic']//a//img/@src")
浙公网安备 33010602011771号