摘要:
序言 之前用python爬取网页的时候,一直用的是regex或者自带的库sgmllib里的SGMLParser。但是遇到复杂一点的情况时,SGMLParser往往就不那么给力了!(哈,难道说我 too native了?毕竟beautifulSoup是继承sgmlparser的么~)所以,我寻寻觅觅寻寻觅觅,发现了BeautifulSoup这么个玩意。BeautifulSoup提供了很人性化的parser tree,有了它,我们可以简单的抽取出tagname, attrs, text等等等等... install什么的,看这里 -> http://www.crummy.com/softwa 阅读全文
posted @ 2012-04-26 18:07
三夜灯
阅读(72377)
评论(9)
推荐(7)

浙公网安备 33010602011771号