记-html格式转换(编码中文乱码现象)

import html

# 转义html格式

test_str = '"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv'

result_str = html.unescape(test_str)

print(result_str) # 输出没有转义的html字符串

输出结果为:"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv

# 解决编码问题

# 在python中，对于unicode存储时，可以采用另一种方法：将unicode的内存编码值进行存储，读取文件时在反向转换回来。这里就采用了unicode-escape的方式

str = result_str.encode().decode('unicode_escape') # unicode_escape解码

# 发现中文乱码了

str.encode('latin-1').decode('utf-8') # 得到正常中文

posted @ 2020-09-17 19:34 leon-chan 阅读(1139) 评论(0) 收藏举报

刷新页面返回顶部

leon-chan