day 12 文件高级操作

1 文件操作的其他方法

1.1 读相关操作

f.read()        # 读取所有内容,执行完该操作后，文件指针会移动到文件末尾
f.readline()   # 读取一行内容,光标移动到第二行首部
f.readlines()  # 读取每一行内容,存放于列表中
---------------------------------------------------------
with open('a.txt',mode='rt',encoding='utf-8') as f:
    for line in f:
        print(line) # 同一时刻只读入一行内容到内存中
---------------------------------------------------------
with open('1.mp4',mode='rb') as f:
    while True:
        data=f.read(1024)        # 同一时刻只读入1024个Bytes到内存中
        if len(data) == 0:
            break
        print(data)

1.1.1 readline：一次读一行

with open(r'g.txt',mode='rt',encoding='utf-8') as f:
	res1=f.readline()
	res2=f.readline()
	print(res2)

	while True:
		line=f.readline()
		if len(line) == 0:
			break
		print(line)

1.1.2 readlines：

 with open(r'g.txt',mode='rt',encoding='utf-8') as f:
	 res=f.readlines()
	 print(res)

 强调： f.read()与 f.readlines()都是将内容一次性读入内存，如果内容过大会导致内存溢出

1.2 写相关操作

f.write('1111\n222\n')                           # 针对文本模式的写,需要自己写换行符
f.write('1111\n222\n'.encode('utf-8'))  # 针对b模式的写,需要自己写换行符
f.writelines(['333\n','444\n'])                 # 文件模式
f.writelines([bytes('333\n',encoding='utf-8'),'444\n'.encode('utf-8')]) #b模式

1 f.writelines()：

with open('h.txt',mode='wt',encoding='utf-8') as f:
	f.write('1111\n222\n3333\n')
	
	l=['11111\n','2222','3333',4444]

	for line in l:
		f.write(line)
		f.writelines(l)

补充 1：如果是纯英文字符，可以直接加前缀 b 得到 bytes 类型

  l = [
      b'1111aaa1\n',
      b'222bb2',
      b'33eee33'
  ]

补充 2：'上'.encode('utf-8') 等同于 bytes('上',encoding='utf-8')

 l = [
 bytes('上啊',encoding='utf-8'),
 bytes('冲呀',encoding='utf-8'),
 bytes('小垃圾们',encoding='utf-8'),
 ]

2 f.writelines(l)

3 flush（）

with open('h.txt', mode='wt',encoding='utf-8') as f:
f.write('哈')
f.flush()

4 了解

with open('h.txt', mode='wt', encoding='utf-8') as f:
        f.readable()  # 文件是否可读
        f.writable()  # 文件是否可读
        f.closed  # 文件是否关闭
        f.encoding  # 如果文件打开模式为b,则没有该属性
        f.flush()  # 立刻将文件内容从内存刷到硬盘
        f.name

2 文件修改的两种方式

2.1 方式一：文本编辑采用的就是这种方式

实现思路：将文件内容发一次性全部读入内存,然后在内存中修改完毕后再覆盖写回原文件

优点: 在文件修改过程中同一份数据只有一份

缺点: 会过多地占用内存

 with open('c.txt',mode='rt',encoding='utf-8') as f:
	 res=f.read()
	 data=res.replace('alex','dsb')
	 print(data)
----------------------------------------------------------
 with open('c.txt',mode='wt',encoding='utf-8') as f1:
	 f1.write(data)

2 方式二：

实现思路：以读的方式打开原文件,以写的方式打开一个临时文件,一行行读取原文件内容,修改完后写入临时文件...,删掉原文件,将临时文件重命名原文件名

优点: 不会占用过多的内存

缺点: 在文件修改过程中同一份数据存了两份

import os

with open('c.txt', mode='rt', encoding='utf-8') as f, \
	 open('.c.txt.swap', mode='wt', encoding='utf-8') as f1:
	 for line in f:
		 f1.write(line.replace('alex', 'dsb'))

os.remove('c.txt')
os.rename('.c.txt.swap', 'c.txt')

f = open('a.txt')
res = f.read()
print(res)

3 文件操作高级方法：控制指针移动

 指针移动的单位都是以 bytes/字节为单位
 只有一种情况特殊：
 t 模式下的 read(n), n 代表的是字符个数

 with open('aaa.txt',mode='rt',encoding='utf-8') as f:
	 res=f.read(4)
	 print(res)

3.1 f.seek(n,模式):n 指的是移动的字节个数

模式 0：参照物是文件开头位置

 f.seek(9,0)

 f.seek(3,0) # 3

模式 1：参照物是当前指针所在位置

 f.seek(9,1)

 f.seek(3,1) # 12

模式 2：参照物是文件末尾位置，应该倒着移动

 f.seek(-9,2) # 3

 f.seek(-3,2) # 9

强调：只有 0 模式可以在 t 下使用，1、2 必须在 b 模式下用

3.2 f.tell() # 获取文件指针当前位置

示范

# a.txt用utf-8编码，内容如下（abc各占1个字节，中文“你好”各占3个字节）
abc你好
-----------------------------------------------------------------------------------------
# 0模式的使用
with open('a.txt',mode='rt',encoding='utf-8') as f:
    f.seek(3,0)     # 参照文件开头移动了3个字节
    print(f.tell()) # 查看当前文件指针距离文件开头的位置，输出结果为3
    print(f.read()) # 从第3个字节的位置读到文件末尾，输出结果为：你好
    # 注意：由于在t模式下，会将读取的内容自动解码，所以必须保证读取的内容是一个完整中文数据，否则解码失败

with open('a.txt',mode='rb') as f:
    f.seek(6,0)
    print(f.read().decode('utf-8')) #输出结果为: 好
-----------------------------------------------------------------------------------------
# 1模式的使用
with open('a.txt',mode='rb') as f:
    f.seek(3,1) # 从当前位置往后移动3个字节，而此时的当前位置就是文件开头
    print(f.tell()) # 输出结果为：3
    f.seek(4,1)     # 从当前位置往后移动4个字节，而此时的当前位置为3
    print(f.tell()) # 输出结果为：7
-----------------------------------------------------------------------------------------
# a.txt用utf-8编码，内容如下（abc各占1个字节，中文“你好”各占3个字节）
abc你好

# 2模式的使用
with open('a.txt',mode='rb') as f:
    f.seek(0,2)     # 参照文件末尾移动0个字节， 即直接跳到文件末尾
    print(f.tell()) # 输出结果为：9
    f.seek(-3,2)     # 参照文件末尾往前移动了3个字节
    print(f.read().decode('utf-8')) # 输出结果为：好

# 小练习：实现动态查看最新一条日志的效果
import time
with open('access.log',mode='rb') as f:
    f.seek(0,2)
    while True:
        line=f.readline()
        if len(line) == 0:
            # 没有内容
            time.sleep(0.5)
        else:
            print(line.decode('utf-8'),end='')

4 总结

4.1 控制文件读写内容的模式

t：文本模式

1、读写都是以字符串（unicode）为单位

2、只能针对文本文件

3、必须指定字符编码，即必须指定 encoding 参数

b：binary 模式

1、读写都是以 bytes 为单位

2、可以针对所有文件

3、一定不能指定字符编码，即一定不能指定 encoding 参数

x 模式（控制文件操作的模式）（了解）

x，只写模式【不可读；不存在则创建，存在则报错】

 with open('a.txt',mode='x',encoding='utf-8') as f:
	 pass

 with open('c.txt',mode='x',encoding='utf-8') as f:
	 f.read()

with open('d.txt', mode='x', encoding='utf-8') as f:
	 f.write('哈哈哈\n')"""

4.2 注意事项

1、在操作纯文本文件方面 t 模式帮我们省去了编码与解码的环节，b 模式则需要手动编码与解码，所以此时 t 模式更为方便

2、针对非文本文件（如图片、视频、音频等）只能使用 b 模式

错误演示：t 模式只能读文本文件

 with open(r'爱 nmlgb 的爱情.mp4',mode='rt') as f:
		 f.read()   # 硬盘的二进制读入内存-》t 模式会将读入内存的内容进行 decode 解码操作
-------------------------------------------------------------------
 with open(r'test.jpg',mode='rb',encoding='utf-8') as f:
		 res=f.read() # 硬盘的二进制读入内存—>b 模式下，不做任何转换，直接读入内存
		 print(res) # bytes 类型—》当成二进制
		 print(type(res))
-------------------------------------------------------------------
 with open(r'd.txt',mode='rb') as f:
		 res=f.read() # utf-8 的二进制
		 print(res,type(res))
		 print(res.decode('utf-8'))
-------------------------------------------------------------------
 with open(r'd.txt',mode='rt',encoding='utf-8') as f:
		 res=f.read() # utf-8 的二进制->unicode
		 print(res)
-------------------------------------------------------------------
 with open(r'e.txt',mode='wb') as f:
		 f.write('你好 hello'.encode('gbk'))
		 with open(r'f.txt',mode='wb') as f:
		 f.write('你好 hello'.encode('utf-8'))
		 f.write('哈哈哈'.encode('gbk'))

4.3 文件拷贝工具

版本 1 一次性读取

src_file=input('源文件路径>>: ').strip()

dst_file=input('源文件路径>>: ').strip()

with open(r'{}'.format(src_file),mode='rb') as f1,\
		 open(r'{}'.format(dst_file),mode='wb') as f2:
		  res=f1.read() # 内存占用过大
		  f2.write(res)

版本 2 循环读取文件

 for line in f1:
	 f2.write(line)

方式一：自己控制每次读取的数据的数据量

 with open(r'test.jpg',mode='rb') as f:
	 while True:
		 res=f.read(1024) # 1024
		 if len(res) == 0:
			 break
			 print(len(res))

方式二：以行为单位读，当一行内容过长时会导致一次性读入内容的数据量过大

 with open(r'g.txt',mode='rt',encoding='utf-8') as f:
	 for line in f:
		 print(len(line),line)
----------------------------------------------------------
 with open(r'g.txt',mode='rb') as f:
	 for line in f:
		 print(line)
----------------------------------------------------------
 with open(r'test.jpg',mode='rb') as f:
	 for line in f:
		 print(line)

posted @ 2021-12-03 15:18 maju 阅读(53) 评论(0) 收藏举报

刷新页面返回顶部

Loading

maju's blog