Xpath使用

正则十分强大，但是有时候组合使用对于不太熟悉的可能会有困难，于是就可以使用Xpath.

Xpath是对网页节点的爬取，首先我们要做的就是将html文件转化为xml文档，在对html节点进行选择。

这里我们要注意的是：

XPATH匹配规则：

　　节点选择

谓语

　　通配符

在python中使用lxml 来解析xml文档

from lxml import etree

爬虫找链接一般是找到一个同一形式内容的大标签，再对下面要找的具体标签分类。

例如爬取住房信息，一般都是由同样的class属性包裹，价格，名称，具体信息都会在里面。

里面的具体处理就能把每一个要爬的信息找到。

具体格式 //div[@大标签的属性]//小标签元素[@小标签属性]/具体要爬的

posted @ 2017-06-13 05:22 Vorobey 阅读(84) 评论(0) 收藏举报

刷新页面返回顶部

Vorobey