w3lib.html remove_tags()函数 去除html的tags

from w3lib.html import remove_tags
#去除html的标签,可用于爬虫处理html

 

In[32]: remove_tags(u'<span>1000</span>')

Out[32]: 

u'1000'

 

In[33]: remove_tags(u'&euro;')
Out[33]: 

u'&euro;'

 

In[34]: remove_tags(u'<span>1000</span><br><br>')
Out[34]: 

u'1000'

 

In[35]: remove_tags(u'<span>1000</span>2432<br>234<br>')
Out[35]: 
u'10002432234'

posted @ 2018-01-22 17:11  丰study  阅读(1341)  评论(0)    收藏  举报