关于beautifulsoup的使用

2015-07-08 16:03 迷路的小书童阅读(234) 评论(0) 收藏举报

说起python对html和xml的应用不得不说beautifulsoup了

目前我对beautifulsoup的了解就是对标签的使用，当然肯定还有很多很强大的功能

先附上代码：

# -*- coding: gb2312 -*- 
import urllib2
from BeautifulSoup import BeautifulSoup

url = "http://www.taobao.com/"
page =""
buf = urllib2.urlopen(url)
tmp = 1
while tmp:
    tmp = buf.readline()
    page+= tmp
print "=================================================="
b = BeautifulSoup(page)
# print page.title()
# print "=================================================="
# print b.head
# print "=================================================="
# titles = b.findAll('span',attrs= { 'class' : 'title' })
# for i in titles:
#     print i
    
print b.p
print "****************************************************************8"
print b.b
print "-------------------------------------------------------------"
print b.p.attrs
print "-----------------------------------------------------------------"
allA = b.findAll('a')
for i in allA:
    print i
    
print "000000000000000000000000000000000000000000"
myId = b.find(id="J_Top")
print myId

b算是beautifulsoup的一个实例，里面有很多属性如：a、p，这些就是网页的标签，beautifulsoup可以通过findall和find来过滤相应的标签，目前接触到的来看功能还是蛮强大的，据说还可以通过正则表达式来过滤，本人正则表达式比较差，暂时没有实际操作过

刷新页面返回顶部

迷路的小书童

关于beautifulsoup的使用

About