dabingsou

2020年2月16日

摘要： Python中常用的html数据抽取方法有正则、XPath和BeautifulSoup这三种。其中，最常用的XPath库是lxml。今天再介绍一个库SimplifiedDoc，一起比较一下他们的优劣。 1、安装 |名称|安装方法|包大小|说明| | | | | | |正则|不需安装（内置）||| | 阅读全文

posted @ 2020-02-16 12:04 dabingsou 阅读(749) 评论(0) 推荐(0)

2019年12月5日

与BeautifulSoup一样强的SimplifiedDoc，专为html抽取而生

摘要：在Python中，说到html解析，很多人都会推荐使用BeautifulSoup。BeautifulSoup确实是一款功能强大，使用比较简单的html解析器。但是这里要讲的SimplifiedDoc一样是使用简单功能强大且专为html抽取而生的。这里说的抽取和解析的意思有点不同，解析是把字符串htm 阅读全文

posted @ 2019-12-05 18:03 dabingsou 阅读(834) 评论(0) 推荐(0)

公告