python爬虫之xpath

　　XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此，对 XPath 的理解是很多高级 XML 应用的基础。

　　xpath具体使用方法参考链接：https://www.jianshu.com/p/85a3004b5c06

　　在python爬虫中，要从爬取的html文件中快速定位并读取指定元素的数据，可以使用xpath方法。

　　1.python3.7中直接导入etree是会出错的，需要使用如下方法导入：

　　from lxml import html

　　etree = html.etree

　　2.谷歌浏览器中安装Xpath Helper插件可以方便测试xpath代码

　　3.爬取豆瓣网经典电影简介中，图片链接的代码如下：

url = "https://movie.douban.com/top250/"

req = request.Request(url=url,headers=headers)
response = request.urlopen(req)
html = response.read().decode("utf-8")
content = etree.HTML(html)
link_list = content.xpath("//div[@class='item']//div[@class='pic']//a//img/@src")

posted @ 2020-10-08 20:12 过去围观阅读(154) 评论(0) 收藏举报

刷新页面返回顶部

python爬虫之xpath

公告