记-html格式转换(编码中文乱码现象)

import html

# 转义html格式

test_str = '"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv'

result_str = html.unescape(test_str)

print(result_str) # 输出没有转义的html字符串

输出结果为:"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv

# 解决编码问题

# 在python中,对于unicode存储时,可以采用另一种方法:将unicode的内存编码值进行存储,读取文件时在反向转换回来。这里就采用了unicode-escape的方式

str = result_str.encode().decode('unicode_escape') # unicode_escape解码

# 发现中文乱码了

str.encode('latin-1').decode('utf-8') # 得到正常中文

posted @ 2020-09-17 19:34  leon-chan  阅读(1121)  评论(0)    收藏  举报