字符编码和文件操作(1)

字符编码
由于计算机内部只识别二进制,但是用户在使用计算机却可以看到各式各样的语言字符,字符编码内部记录了人类字符与数字对应关系的字符
一、字符编码的发展史
1、一家独大
计算机最初是由美国人发明的,美国人为了能够让计算机识别英文字符,由此发明了ASCII码,里面记录了英文字符与数字的对应关系
用一个字节来对应关系
必须记住的对应关系是以下两组:
A-Z 65-90
a-z 97-122
2、群雄割据
中国人为了能够让计算机识别中文,我们发明另外一套编码表:GBK码。它记录了英文中文与数字的对应关系。对应英文使用一个字节,对应中文还是使用两个甚至更多字节。
日本人为了能够让计算机可以识别日文,也发明了一套编码表:shift_JIS码:记录了日文英文与数字的对应关系。
韩国人为了让计算机能够识别韩文,也需要发明一套编码表:Euc_kr码,:记录了韩文英文与数字的关系。
3、天下一统
为了能够实现不同国家之间的文本数据能够彼此五障碍交流需要对编码统一,发明了unicode(万国码),统一使用两个及以上的记录字符与数字的对应关系。utf8是万国码的优化版本,为了节省空间,将英文还是用一个字节存储,将中文使用三个字节或更多字节存储。
<<<现在默认使用的编码是utf8>>>
二、字符编码实操
1、解决文件乱码的情况
文件当初以什么编码编的,打开的时候就是以什么编码解开。
2、python解释器版本不同带来的编码差异
python2.x内部使用的编码默认是ASCII。所以当直接以比如中文来建字符串的时候,它无法识别。此时我们要
(1)加一个文件头:coding:utf8
(2)在python2中定义字符串前面加小u:s=u'我'
python3.x内部使用utf8
3、编码与解码
编码:将人类能够读懂的字符安装指定的编码转换成数字
解码:将数字按照指定的编码转换成人类能够读懂的字符

文件操作
1、文件:文件时操作系统暴露给用户操作硬盘的快捷方式(接口)
2、代码如何操作文件三步走:
(1)利用关键字open打开文件
(2)利用其他方法操作文件
(3)关闭文件
补充:
路径中国出现了字母与斜杠的组合产生了特殊含义如何取消,在路径字符串前面加一个r.
with上下文管理
三、文件读写模式
1、只读模式(只能看不能改)

2、只写模式

3、追加模式

写完啦



浙公网安备 33010602011771号