爬虫入门--xpatch

XPath 是一门在 XML 文档中查找信息的语言。XPath 使用路径表达式在 XML 文档中进行导航 。XPath 包含一个标准函数库 。XPath 是 XSLT 中的主要元素 。XPath 是一个 W3C 标准

安装lxml

pip install lxml

简单案例

from lxml import etree

if __name__ == '__main__':
    # 从本地获取
    html = etree.parse('test.html')
    # 从网络获取
    # html = etree.HTML('HTML_TEXT')
    # 层级定位,/表示从指定tag开始
    # r = html.xpath('/html//div')
    # 层级定位,//表示从任意tag开始
    # r = html.xpath('/html//div')
    # 属性定位@attrName="attrValue"
    # r = html.xpath('//div[@class="song"]')
    # 索引定位tag[n],注:n从1开始
    # r = html.xpath('//div[@class="song"]/p[3]')
    # 取标签直系文本值/text()
    # r = html.xpath('//div[@class="tang"]/ul/li[4]/a/text()')[0]
    # 取标签所有文本值,包括非直系//text()
    # r = html.xpath('//div[@class="tang"]/ul/li[7]//text()')[0]
    # 取属性值@attrName
    r = html.xpath('//div[@class="song"]//img/@src')
    print(r)
```python
posted @ 2023-03-14 23:34  芒果AI  阅读(92)  评论(0)    收藏  举报