Python处理HTML转义字符

使用Python抓取QQ音乐库数据时,音乐名中出现一些奇怪字符,下面的抓取结果中,《执迷不悔 (国语)》就变成了“执迷不悔 (国语)”:

Python自带的HTMLParser模块可以解决这个问题:

html = '(Hello)'

import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html)

使用cgi模块还可以反转结果:

import cgi
html = cgi.escape(txt)

 

posted @ 2015-03-23 12:07  007wangkai  阅读(597)  评论(0)    收藏  举报