使用HTMLParser去除HTML源文件中的标签和属性

使用HTMLParser去除HTML源文件中的标签和属性

在一些情况下,比如输出一片文章的摘要,前面的若干个字,但是存储在数据库中的文章又 偏偏是带有格式的HTML。这种情况下,可以使用下面这种方法将HTML中所有的标签剔除干净。

from HTMLParser import HTMLParser

def strip_tags(html):
html=html.strip()
html=html.strip("\n")
result=[]
parse=HTMLParser()
parse.handle_data=result.append
parse.feed(html)
parse.close()
return "".join(result)

if __name__ == "__main__":
html = """<a name="val">123</a><input type="text" name="afdsa" /><b><br><u>fffffff<br></u></b><div style="text-align: left;"><b><u>fdafd</u></b><br><br></div>
"""
print strip_tags(html)



posted @ 2011-11-23 20:34  LemonLi  阅读(1390)  评论(0编辑  收藏  举报