python爬虫xpath

xpath解析：最常用且最便捷高效的一种解析方式。通用性。

　　—— xpath解析原理：

　　　　—— 1.实例化一个etree的对象，且需要将被解析的页面源码数据记载到该对象中

　　　　—— 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。

　　　　—— xpath('xpath表达式')

　　—— 环境的安装：

　　　　—— pip install lxml

　　—— 如何实例化一个etree对象： from lxml import etree

　　　　—— 1.将本地的html文档中的源码数据加载到etree对象中：

　　　　　　etree.parse(filePath)

　　　　—— 2.可以将从互联网上获取的源码数据加载到该对象中

　　　　　　etree.HTML('page_text')

　　—— xpath表达式：

　　　　—— /：表示的是从根节点上开始定位，表示的是一个层级

　　　　—— //：表示的是多个层级。可以表示从任意位置开始定位

　　　　—— 属性定位：//div[@class='song'] tag[@attrName="attrValue"]

　　　　—— 索引定位：//div[@class="song"]/p[3]　　索引从1开始

　　　　—— 取文本：

　　　　　　—— /text()　　获取的是标签中直系的文本内容

　　　　　　—— //text()　　标签中非直系的文本内容（所有的文本内容）

　　　　—— 取属性：

　　　　　　/@attrName

posted @ 2021-11-13 15:08 天叔阅读(243) 评论(0) 收藏举报

刷新页面返回顶部

天叔