关于beautifulsoup的使用
2015-07-08 16:03 迷路的小书童 阅读(231) 评论(0) 收藏 举报说起python对html和xml的应用不得不说beautifulsoup了
目前我对beautifulsoup的了解就是对标签的使用,当然肯定还有很多很强大的功能
先附上代码:
# -*- coding: gb2312 -*- import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.taobao.com/" page ="" buf = urllib2.urlopen(url) tmp = 1 while tmp: tmp = buf.readline() page+= tmp print "==================================================" b = BeautifulSoup(page) # print page.title() # print "==================================================" # print b.head # print "==================================================" # titles = b.findAll('span',attrs= { 'class' : 'title' }) # for i in titles: # print i print b.p print "****************************************************************8" print b.b print "-------------------------------------------------------------" print b.p.attrs print "-----------------------------------------------------------------" allA = b.findAll('a') for i in allA: print i print "000000000000000000000000000000000000000000" myId = b.find(id="J_Top") print myId
b算是beautifulsoup的一个实例,里面有很多属性如:a、p,这些就是网页的标签,beautifulsoup可以通过findall和find来过滤相应的标签,目前接触到的来看功能还是蛮强大的,据说还可以通过正则表达式来过滤,本人正则表达式比较差,暂时没有实际操作过
浙公网安备 33010602011771号