Python处理HTML转义字符
使用Python抓取QQ音乐库数据时,音乐名中出现一些奇怪字符,下面的抓取结果中,《执迷不悔 (国语)》就变成了“执迷不悔 (国语)”:
Python自带的HTMLParser模块可以解决这个问题:
html = '(Hello)'
import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html)
使用cgi模块还可以反转结果:
import cgi
html = cgi.escape(txt)

浙公网安备 33010602011771号