Xpath使用
正则十分强大,但是有时候组合使用对于不太熟悉的可能会有困难,于是就可以使用Xpath.
Xpath是对网页节点的爬取,首先我们要做的就是将html文件转化为xml文档,在对html节点进行选择。
这里我们要注意的是:
- XML 的设计宗旨是传输数据,而非显示数据
XPATH匹配规则:
节点选择
- / 表示根节点
- //表示匹配文档所有节点
- . 当前节点
- .. 当前父节点
- @属性选择(一般用于当前节点选择)
谓语
- /div/book[1] div元素下第一个book标签
- /div/book[last()] div元素下最后一个book标签
通配符
- * 页面所有元素节点
- @* 页面所有属性节点
在python中使用lxml 来解析xml文档
from lxml import etree
爬虫找链接一般是 找到一个同一形式内容的大标签,再对下面要找的具体标签分类。
例如爬取住房信息,一般都是由同样的class属性包裹,价格,名称,具体信息都会在里面。
里面的具体处理就能把每一个要爬的信息找到。
具体格式 //div[@大标签的属性]//小标签元素[@小标签属性]/具体要爬的

浙公网安备 33010602011771号