摘要: Python中常用的html数据抽取方法有正则、XPath和BeautifulSoup这三种。其中,最常用的XPath库是lxml。今天再介绍一个库SimplifiedDoc,一起比较一下他们的优劣。 1、安装 |名称|安装方法|包大小|说明| | | | | | |正则|不需安装(内置)||| | 阅读全文
posted @ 2020-02-16 12:04 dabingsou 阅读(728) 评论(0) 推荐(0)
摘要: 在Python中,说到html解析,很多人都会推荐使用BeautifulSoup。BeautifulSoup确实是一款功能强大,使用比较简单的html解析器。但是这里要讲的SimplifiedDoc一样是使用简单功能强大且专为html抽取而生的。这里说的抽取和解析的意思有点不同,解析是把字符串htm 阅读全文
posted @ 2019-12-05 18:03 dabingsou 阅读(828) 评论(0) 推荐(0)