使用HTMLParser去除HTML源文件中的标签和属性

在一些情况下，比如输出一片文章的摘要，前面的若干个字，但是存储在数据库中的文章又偏偏是带有格式的HTML。这种情况下，可以使用下面这种方法将HTML中所有的标签剔除干净。

from HTMLParser import HTMLParser

def strip_tags(html):
    html=html.strip()
    html=html.strip("\n")
    result=[]
    parse=HTMLParser()
    parse.handle_data=result.append
    parse.feed(html)
    parse.close()
    return "".join(result)

if __name__ == "__main__":
    html = """<a name="val">123</a><input type="text" name="afdsa" /><b><br><u>fffffff<br></u></b><div style="text-align: left;"><b><u>fdafd</u></b><br><br></div>
"""
    print strip_tags(html)

posted @ 2011-11-23 20:34 LemonLi 阅读(1432) 评论(0) 收藏举报

刷新页面返回顶部

使用HTMLParser去除HTML源文件中的标签和属性

使用HTMLParser去除HTML源文件中的标签和属性

公告