记-html格式转换(编码中文乱码现象)
import html
# 转义html格式
test_str = '"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv'
result_str = html.unescape(test_str)
print(result_str) # 输出没有转义的html字符串
输出结果为:"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv
# 解决编码问题
# 在python中,对于unicode存储时,可以采用另一种方法:将unicode的内存编码值进行存储,读取文件时在反向转换回来。这里就采用了unicode-escape的方式
str = result_str.encode().decode('unicode_escape') # unicode_escape解码
# 发现中文乱码了
str.encode('latin-1').decode('utf-8') # 得到正常中文