Xpath使用

正则十分强大,但是有时候组合使用对于不太熟悉的可能会有困难,于是就可以使用Xpath.

Xpath是对网页节点的爬取,首先我们要做的就是将html文件转化为xml文档,在对html节点进行选择。

这里我们要注意的是:

  • XML 的设计宗旨是传输数据,而非显示数据

XPATH匹配规则:

  节点选择

  • /  表示根节点
  • //表示匹配文档所有节点
  • . 当前节点
  • .. 当前父节点
  • @属性选择(一般用于当前节点选择)

     谓语

  • /div/book[1]   div元素下第一个book标签
  • /div/book[last()] div元素下最后一个book标签

  通配符

  • * 页面所有元素节点
  • @* 页面所有属性节点

在python中使用lxml 来解析xml文档

from lxml import etree

爬虫找链接一般是 找到一个同一形式内容的大标签,再对下面要找的具体标签分类。

例如爬取住房信息,一般都是由同样的class属性包裹,价格,名称,具体信息都会在里面。

里面的具体处理就能把每一个要爬的信息找到。

具体格式  //div[@大标签的属性]//小标签元素[@小标签属性]/具体要爬的

 


 

 

posted @ 2017-06-13 05:22  Vorobey  阅读(84)  评论(0)    收藏  举报