python爬虫之xpath

  XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此,对 XPath 的理解是很多高级 XML 应用的基础。

  xpath具体使用方法参考链接:https://www.jianshu.com/p/85a3004b5c06

  在python爬虫中,要从爬取的html文件中快速定位并读取指定元素的数据,可以使用xpath方法。

  1.python3.7中直接导入etree是会出错的,需要使用如下方法导入:

  from lxml import html

  etree = html.etree

  2.谷歌浏览器中安装Xpath Helper插件可以方便测试xpath代码

  3.爬取豆瓣网经典电影简介中,图片链接的代码如下:

url = "https://movie.douban.com/top250/"
req = request.Request(url=url,headers=headers)
response = request.urlopen(req)
html = response.read().decode("utf-8")
content = etree.HTML(html)
link_list = content.xpath("//div[@class='item']//div[@class='pic']//a//img/@src")

 

posted @ 2020-10-08 20:12  过去围观  阅读(146)  评论(0)    收藏  举报