python编程中遇到的编码问题
1.编码格式简介
ASCII:英文字母
GBK/GB2312:中文
UNICODE:ISO统一制定编码格式,因传输格式不同分为utf-8和utf-16
2.decode和encode的区分
字符串在python内部是unicode编码格式,因此,在做编码转换时要用unicode作为中介。
decode:将其他编码转换为unicode编码
encode:将unicode编码转换为其他编码
例1:
Question:将utf-8编码格式转换为gbk格式
Answer:decode('utf-8').encode('gbk')
3.python中检测字符编码模块:chardet

confidence是检测精确度,encoding是编码形式。从返回值可以看出,chardet返回的是一个字典,所以要取到python中字符编码,即取到key为‘encoding’的值即可,chardet.detect(body)['encoding']

浙公网安备 33010602011771号