代码改变世界

关于beautifulsoup的使用

2015-07-08 16:03  迷路的小书童  阅读(231)  评论(0)    收藏  举报

说起python对html和xml的应用不得不说beautifulsoup了

目前我对beautifulsoup的了解就是对标签的使用,当然肯定还有很多很强大的功能

先附上代码:

# -*- coding: gb2312 -*- 
import urllib2
from BeautifulSoup import BeautifulSoup

url = "http://www.taobao.com/"
page =""
buf = urllib2.urlopen(url)
tmp = 1
while tmp:
    tmp = buf.readline()
    page+= tmp
print "=================================================="
b = BeautifulSoup(page)
# print page.title()
# print "=================================================="
# print b.head
# print "=================================================="
# titles = b.findAll('span',attrs= { 'class' : 'title' })
# for i in titles:
#     print i
    
print b.p
print "****************************************************************8"
print b.b
print "-------------------------------------------------------------"
print b.p.attrs
print "-----------------------------------------------------------------"
allA = b.findAll('a')
for i in allA:
    print i
    
print "000000000000000000000000000000000000000000"
myId = b.find(id="J_Top")
print myId

b算是beautifulsoup的一个实例,里面有很多属性如:a、p,这些就是网页的标签,beautifulsoup可以通过findall和find来过滤相应的标签,目前接触到的来看功能还是蛮强大的,据说还可以通过正则表达式来过滤,本人正则表达式比较差,暂时没有实际操作过