python爬虫xpath
xpath解析:最常用且最便捷高效的一种解析方式。通用性。
—— xpath解析原理:
—— 1.实例化一个etree的对象,且需要将被解析的页面源码数据记载到该对象中
—— 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。
—— xpath('xpath表达式')
—— 环境的安装:
—— pip install lxml
—— 如何实例化一个etree对象: from lxml import etree
—— 1.将本地的html文档中的源码数据加载到etree对象中:
etree.parse(filePath)
—— 2.可以将从互联网上获取的源码数据加载到该对象中
etree.HTML('page_text')
—— xpath表达式:
—— /:表示的是从根节点上开始定位,表示的是一个层级
—— //:表示的是多个层级。可以表示从任意位置开始定位
—— 属性定位://div[@class='song'] tag[@attrName="attrValue"]
—— 索引定位://div[@class="song"]/p[3] 索引从1开始
—— 取文本:
—— /text() 获取的是标签中直系的文本内容
—— //text() 标签中非直系的文本内容(所有的文本内容)
—— 取属性:
/@attrName

浙公网安备 33010602011771号