python编程中遇到的编码问题

1.编码格式简介

  ASCII:英文字母

  GBK/GB2312:中文

  UNICODE:ISO统一制定编码格式,因传输格式不同分为utf-8和utf-16

 2.decode和encode的区分

  字符串在python内部是unicode编码格式,因此,在做编码转换时要用unicode作为中介。

  decode:将其他编码转换为unicode编码

  encode:将unicode编码转换为其他编码

  例1:

  Question:将utf-8编码格式转换为gbk格式

  Answer:decode('utf-8').encode('gbk')

 3.python中检测字符编码模块:chardet

  

  confidence是检测精确度,encoding是编码形式。从返回值可以看出,chardet返回的是一个字典,所以要取到python中字符编码,即取到key为‘encoding’的值即可,chardet.detect(body)['encoding']

  

posted @ 2017-10-31 10:37  HathawayEchoo  阅读(86)  评论(0)    收藏  举报