lxml.etree之xpath语法

lxml.etree之xpath

导入方式

from lmxl import etree

解析文件和网页数据

# 解析文件
tree = etree.parse('file.xml')
# 解析网页
tree = etree.HTML('html_text')

定位标签

r = tree.xpath('/html/body/div') => r: 列表
用法 说明
'/' 表示从根节点开始定位,表示一个层级
'//' 表示多个层级,开头时表示从任意位置开始定位
'./' 表示从当前标签开始定位
'标签名[@属性名="属性值"]' 属性定位
'标签名[索引]' 索引定位,索引从1开始
'xpath表达式1 | xpath表达式2' 多重定位
标签名/text() 获取直系文本
标签名//text() 获取非直系文本
标签名/@属性名 获取属性值
posted @ 2021-02-04 20:44  programmerfish  阅读(281)  评论(0)    收藏  举报