爬虫入门--xpatch

XPath 是一门在 XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中进行导航。XPath 包含一个标准函数库。XPath 是 XSLT 中的主要元素。XPath 是一个 W3C 标准

安装lxml

pip install lxml

简单案例

from lxml import etree

if __name__ == '__main__':
    # 从本地获取
    html = etree.parse('test.html')
    # 从网络获取
    # html = etree.HTML('HTML_TEXT')
    # 层级定位，/表示从指定tag开始
    # r = html.xpath('/html//div')
    # 层级定位，//表示从任意tag开始
    # r = html.xpath('/html//div')
    # 属性定位@attrName="attrValue"
    # r = html.xpath('//div[@class="song"]')
    # 索引定位tag[n]，注：n从1开始
    # r = html.xpath('//div[@class="song"]/p[3]')
    # 取标签直系文本值/text()
    # r = html.xpath('//div[@class="tang"]/ul/li[4]/a/text()')[0]
    # 取标签所有文本值，包括非直系//text()
    # r = html.xpath('//div[@class="tang"]/ul/li[7]//text()')[0]
    # 取属性值@attrName
    r = html.xpath('//div[@class="song"]//img/@src')
    print(r)
```python

posted @ 2023-03-14 23:34 芒果AI 阅读(104) 评论(0) 收藏举报

刷新页面返回顶部

爬虫入门--xpatch

安装lxml

简单案例

公告