python爬虫xpath

xpath解析:最常用且最便捷高效的一种解析方式。通用性。

  —— xpath解析原理:

    —— 1.实例化一个etree的对象,且需要将被解析的页面源码数据记载到该对象中

    —— 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。

    —— xpath('xpath表达式')

 

  —— 环境的安装:

    —— pip install lxml

 

  —— 如何实例化一个etree对象: from lxml import etree

    —— 1.将本地的html文档中的源码数据加载到etree对象中:

      etree.parse(filePath)

    —— 2.可以将从互联网上获取的源码数据加载到该对象中

      etree.HTML('page_text')

 

  —— xpath表达式:

    —— /:表示的是从根节点上开始定位,表示的是一个层级

    —— //:表示的是多个层级。可以表示从任意位置开始定位

    —— 属性定位://div[@class='song']  tag[@attrName="attrValue"]

    —— 索引定位://div[@class="song"]/p[3]  索引从1开始

    —— 取文本:

      —— /text()  获取的是标签中直系的文本内容

      —— //text()  标签中非直系的文本内容(所有的文本内容)

    —— 取属性:

      /@attrName

posted @ 2021-11-13 15:08  天叔  阅读(231)  评论(0)    收藏  举报