字符编码跟文件处理 - liubinliuliu

一、字符编码

1.文本编辑器读一个文件的三个过程:

01、先启动文本编辑器

02 、摁键编辑器会将文件的内容读入内存

03 、将读入内存的内容显示到屏幕上

Cpython解释器执行一个py文件的的三个过程

01、先启动python解释器

02、python解释器会将py文件的内容当成普通文本的内容读入内存

03、开始解释执行刚刚读入内存的代码，识别python语法

2、字符编码

字符编码指的是字符转换成/编码成数字

编码的过程一定要遵循一个标准，该标准是字符编码表

字符-----------------------------编码-----------------------------------》》数字

字符《《-------------------------------解码---------------------------------数字

01、计算机最早是美国人生产的，最早的字符编码表是ASCII表：只能识别英文字符，用8bit对应一个英文字符

一个英文字符====》1Bytes

02、GBK表：可以识别中文字符、英文字符，也是用8bit对应一个英文字符，用18bit对应一个中文字符

一个英文字符====》1Bytes 一个中文字符====》2Bytes

03、每个国家都有自己的语言，这就有望于一个所有国家都通用的编码

unicode表(内存中默认使用该编码)：用2Bytes表示一个字符
二个优点 1 、可以识别万国字符
2、与各种编码字符编码的二进制数字都有对应关系

04、utf-8全称Unicode Transformation Format：

1个英文字符====》1Bytes
1个中文字符====》3Bytes

结论：

1、编码与解码
字符--------编码--------》数字
字符《--------解码--------数字

unicode二进制========编码========》utf-8二进制
unicode二进制《=======解码=========utf-8二进制

2、内存中固定使用unicode编码，我们可以改变的是数据由内存刷到硬盘时采用的编码（应该采用utf-8）
unicode的特点： 01、可以识别万国字符

02、与各种字符编码的二进制数字都有对应关系

3、解决乱码问题的核心：

01、字符当初以什么编码存的，就应该以什么编码去读

02、保证运行python程序的前两个阶段不乱码的解决方案：添加文件头
在文件首行添加#coding：文件当初存的字符编码

4、python解释器默认的编码
python3：默认utf-8
python2：默认ASCII

5、python3的字符串类型在内存中存成unicode格式的二进制

unicode的二进制------编码encode------->gbk格式的二进制
res=x.encode('gbk')
res=x.encode('utf-8')
print(res,type(res))

unicode的二进制<------解码decode-------gbk格式的二进制
m=res.decode('gbk')
print(m)

二、文件处理

1、什么是文件

文件是操作系统为应用程序或者用户提供一种操作硬盘的虚拟单位
强调：
文件是操作系统提供的虚拟单位
应用程序或者用户对文件的读写操作其实都是向操作系统发送指令

2、为何要用文件

文件对应的硬盘空间，如果需要考虑永久保存数据那必须使用文件

3、如何用文件

路径问题
绝对路径：
window: C:\a\b\c\d.txt
linux: /a/b/c/d.txt
相对路径: 相对于当前执行文件所在文件夹
a/b/c/d.txt

01、打开文件
f=open(r'文件路径\a.txt',mode='rt',encoding='utf-8')
print(f)

02、读/写文件
data=f.read()
print(data)

03、关闭文件
f.close() # 向操作系统发送指令，让操作系统关闭打开的文件，回收操作系统资源
print(f)
f.read()

04、上下文管理
with open('a.txt',mode='rt',encoding='utf-8') as f:
data=f.read()
print(data)

4、文件的打开模式

1、基本介绍

控制文件读写操作的模式

r(默认)

控制文件读写内容的模式(不能单独使用，必须与r,w,a连用)

t(模式)

2、详细介绍

控制文件读写操作的模式
r（默认）：只读模式，以该模式打开文件，当文件不存在时则报错，当文件存在时文件指针在文件开头
with open('a.txt',mode='rt',encoding='utf-8') as f:
data=f.read()
print(data)

是否可以读取：

print(f.readable())#True

print(f.writable())#False

一行一行的打印：

line=f.readline()

print(line,end='')#打印一行

line = f.readline()

print(line,end='')#打印二行

line = f.readline()

print(line, end='')#打印三行#

print(data,type(data))

打印每一行：

for line in f:

print(line)

每一行作为一个元素，打印出来是列表：

print(f.readlines())

pass

w: 只写模式，以该模式打开文件，当文件不存在时创建一个空文档，当文件存在时清空文件内容，文件指针在文件开头

with open('a.txt',mode='wt',encoding='utf-8') as f:

判断可以不可以读写

print(f.readable())#False

print(f.writable())#True

在打开了文件不关闭的情况下，连续的写入，新写的内容总是跟在老内容之后

f.write('你瞅啥\n')

f.write('瞅你那熊样\n')

f.write('巴拉巴拉。。。\n')

lines=['1111\n','2222\n','3333\n']

循环写入

for line in lines:

f.write(line)

或者：

f.writelines(lines)

f.write('aaaa\nbbb\ncccc\n')

a: 只追加写模式，以该模式打开文件，当文件不存在时创建一个空文档，当文件存在时不清空文件内容，文件指针跳到文件末尾

with open('c.txt',mode='at',encoding='utf-8') as f:

f.write('你好阿斯蒂芬\n')

f.write('adfasdf\n')

f.writelines([1,2,3])#需要字符串才能写进文本

控制文件读写内容的模式（不能单独使用，必须与r、w、a连用）

t（默认）：无论读写都是以字符为单位的，只能操作文本文件，必须指定encoding参数

b:无论读写都是以bytes为单位的，可以操作所有文件，一定不能指定encoding参数

with open('a.txt',mode='rb') as f:

data=f.read()

print(data,type(data))

print(data.decode('utf-8'))

with open('01.mp4',mode='rb') as f:

data=f.read()

print(data,type(data))

with open('a.txt',mode='wb') as f:

f.write('xxxxxxxxxxx'.encode('utf-8'))

练习：拷贝文件小程序

with open('01.mp4',mode='rb',) as read_f,\

open(r'D:\1111.mp4',mode='wb') as write_f:

data=read_f.read()

write_f.write(data)

了解：

+：不能单独使用，必须与rwa连用，r+ w+ a+

with open('a.txt','r+t',encoding='utf-8') as f:

print(f.readable())

print(f.writable())

data=f.readline()

print(data)

f.write('刘清蒸')

with open('a.txt','r+t',encoding='utf-8') as f:

print(f.readable())

print(f.writable())

f.seek(10)

print(f.tell())

f.write('你好啊')

5、文件修改的两种方式

方式一：
1. 以读的方式打开源文件
2. 将文件内容一次性全读入内存，在内存完成修改
3. 以写的方式打开源文件，然后将修改后的结果一次性写入源文件/
总结：
优点：在文件修改过程中硬盘只存在一份数据
缺点：浪费内存

with open('b.txt',mode='rt',encoding='utf-8') as f1:
    msg=f1.read()
    new_msg=msg.replace('alex','大SB')


with open('b.txt',mode='wt',encoding='utf-8') as f2:
    f2.write(new_msg)

方式二
1. 以读的方式打开源文件，以写的方式打开一个临时文件
2. 读取源文件的一行内容到内存中，将修改的结果写入临时文件，循环往复直到改
3. 删除源文件，将临时文件重命名为源文件名
优点：同一时间在内存中只有文件的一行内容，更节省内容
缺点：在文件修改过程中硬盘只存在两份数据

import os

with open('b.txt',mode='rt',encoding='utf-8') as read_f,\
    open('.b.txt.swap',mode='wt',encoding='utf-8') as write_f:
    for line in read_f
        write_f.write(line.replace('大SB','alex'))


os.remove('b.txt')
os.rename('.b.txt.swap','b.txt')

6、控制文件内指针移动

强调：只有t模式下read(n)，n代表字符个数，除此以外都是以字节为单位
with open('a.txt',mode='rt',encoding='utf-8') as f:
    res=f.read(4)
    print(res)#字符个数4

with open('a.txt',mode='rb') as f:
    res=f.read(3)
    print(res.decode('utf-8'))#字节数3

with open('a.txt',mode='at',encoding='utf-8') as f:
    f.truncate(3)#除去3个字节后面全部删除

f.seek()：指针移动是以字节为单位的
三种模式：只有0模式既可以在t下用也可以在b下用，而1、2两种模式只能在b模式下使用
0（默认的）：参照文件开头
with open('a.txt',mode='rt',encoding='utf-8') as f:
    f.seek(3,0)
    print(f.tell())#指针所在字节数
    print(f.read())#指针之后的内容

1：参照指针当前所在的位置
with open('a.txt',mode='rb') as f:
    f.read(2)#此处在b模式下n就表示字节
    f.seek(4,1)#1表示参照指针当前的地方
    print(f.tell())#那么此处就是6个字节
    print(f.read().decode('utf-8'))

2: 参照文件末尾
with open('a.txt',mode='rb') as f:
    f.seek(-5,2)#末尾向左移动5个字节
    print(f.tell())#全部字节减去这5个字节
    print(f.read().decode('utf-8'))#就是读取的那5个字节

发表于 2019-02-14 15:00 liubinliuliu 阅读(101) 评论(0) 收藏举报