欢迎来到米奇佳佳屋的博客

人生三从境界:昨夜西风凋碧树,独上高楼,望尽天涯路。 衣带渐宽终不悔,为伊消得人憔悴。 众里寻他千百度,蓦然回首,那人却在灯火阑珊处。

python中文乱码问题

    

 

最近在处理短文本数据,遇到了各种各样的中文乱码问题,所以下面总结一下自己遇到的问题

1. 画图中文乱码

    这一类是最最常见的一类

from pylab import mpl 
mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题

2. pandas 导入csv文件

df = pd.read_csv(path , engine = 'python')
或者
df =pd.read_csv(path,engine='python',encoding = 'utf-8')
# 一般来说第一种可以解决

 除了使用的方法,还有一种就是,在导入数据之前,在notepad++中提前把文本的编码进行转换

3. 导入txt文件时

 出现 “ UnicodeDecodeError: 'gbk' codec can't decode byte 0xa7 in position 7 ” 这一类报错

    其主要的原因是,要打开的文件中,有‘gbk’解析不了的文本内容,可能是文件格式并非'gbk'格式的。在网上找了很多方法最后使用下面这一种解决

    首先指定文本的编码格式为utf-8的,接着对于仍然无法识别出来的,因此使用errors来忽略错误

with open(path  , 'rb' ,encoding='utf-8' , errors = 'ignore')

  

posted @ 2020-11-17 15:05  菜鸟码代码  阅读(328)  评论(0编辑  收藏  举报