文件处理方式

文件

什么是文件

  文件是操作系统提供给用户/应用程序操作硬盘的一种虚拟的概念/接口

为什么要用文件

用户/应用程序可以通过文件将数据永久保存的硬盘中即操作文件就是操作硬盘
就是操作硬盘用户/应用程序直接操作的是文件,对文件进行的所有的操作,
都是在向操作系统发送系   统调用,然后再由操作将其转换成具体的硬盘操作

如何操控文件

三个步骤:打开,操作,关闭

基本操作流程

   打开文件,由应用程序向操作系统发起系统调用open(...),
   操作系统打开该文件,对应一块硬盘空 间,并返回一个文件对象赋值给一个变量f
 f=open('a.txt','r',encoding='utf-8') #默认打开模式就为r

调用文件对象下的读/写方法,会被操作系统转换为读/写硬盘的操作

data=f.read()

向操作系统发起关闭文件的请求,回收系统资源

f.close()

文件的操作模式

控制文件读写操作的模式
r(默认的):只读
w:只写
a:只追加写
r 模式的使用
r只读模式: 在文件不存在时则报错,文件存在文件内指针直接跳到文件开头
with open('a.txt',mode='r',encoding='utf-8') as f:
     res=f.read() # 会将文件的内容由硬盘全部读入内存,赋值给res
    ```

## 实现用户认证功能

```python
inp_name=input('请输入你的名字: ').strip()
 inp_pwd=input('请输入你的密码: ').strip()
 with open(r'db.txt',mode='r',encoding='utf-8') as f:
     for line in f:
         # 把用户输入的名字与密码与读出内容做比对
         u,p=line.strip('\n').split(':')
         if inp_name == u and inp_pwd == p:
             print('登录成功')
             break
     else:
         print('账号名或者密码错误')

w 模式的使用

w只写模式: 在文件不存在时会创建空文档,文件存在会清空文件,文件指针跑到文件开头

with open('b.txt',mode='w',encoding='utf-8') as f:
    f.write('你好\n')
    f.write('我好\n') 
    f.write('大家好\n')
    f.write('111\n222\n333\n')

强调:

1 在文件不关闭的情况下,连续的写入,后写的内容一定跟在前写内容的后面
2 如果重新以w模式打开文件,则会清空文件内容

a 模式的使用

a只追加写模式: 在文件不存在时会创建空文档,文件存在会将文件指针直接移动到文件末尾

with open('c.txt',mode='a',encoding='utf-8') as f:
     f.write('44444\n')
     f.write('55555\n')

强调 w 模式与 a 模式的异同:

 1.相同点:在打开的文件不关闭的情况下,连续的写入,新写的内容总会跟在前写的内容之后
2.不同点:以 a 模式重新打开文件,不会清空原文件内容,会将文件指针直接移动到文件末尾,
新写的内容永远写在最后

实现注册功能:

name=input('username>>>: ').strip()
 pwd=input('password>>>: ').strip()
 with open('db1.txt',mode='a',encoding='utf-8') as f:
     info='%s:%s\n' %(name,pwd)
     f.write(info)
   
  • + + 模式的使用(了解)
    r+ w+ a+ :可读可写
    在平时工作中,我们只单纯使用r/w/a,要么只读,要么只写,一般不用可读可写的模式

X模式
只写模式:不可读;不存在则创建,存在则报错

 with open('a.txt',mode='x',encoding='utf-8') as f:
      f.read('accx')

控制文件读写内容的模式

t:
1、读写都是以字符串(unicode)为单位
2、只能针对文本文件
3、必须指定字符编码,即必须指定encoding参数
b:binary模式
1、读写都是以bytes为单位
2、可以针对所有文件
3、一定不能指定字符编码,即一定不能指定encoding数

总结:
1、在操作纯文本文件方面t模式帮我们省去了编码与解码的环节,b模式则需要手动编码与解码,所以此时t模式更为方便
2、针对非文本文件(如图片、视频、音频等)只能使用b模式

文件拷贝工具

src_file=input('源文件路径>>: ').strip()
dst_file=input('源文件路径>>: ').strip()
with open(r'{}'.format(src_file),mode='rb') as f1,\
    open(r'{}'.format(dst_file),mode='wb') as f2:
    for line in f1:
        f2.write(line)
循环读取文件
方式一:自己控制每次读取的数据的数据量

with open(r'test.jpg',mode='rb') as f:
    while True:
        res=f.read(1024) # 1024
        if len(res) == 0:
            break
        print(len(res))
方式二:以行为单位读,当一行内容过长时会导致一次性读入内容的数据量过大

with open(r'g.txt',mode='rt',encoding='utf-8') as f:
    for line in f:
        print(len(line),line)
with open(r'g.txt',mode='rb') as f:
    for line in f:
        print(line)
with open(r'test.jpg',mode='rb') as f:
    for line in f:
        print(line)
文件的其他操作方法
读相关操作
1、readline:一次读一行

with open(r'g.txt',mode='rt',encoding='utf-8') as f:
     res1=f.readline()
     res2=f.readline()
     print(res2)

    while True:
        line=f.readline()
        if len(line) == 0:
            break
        print(line)
2、readlines:

with open(r'g.txt',mode='rt',encoding='utf-8') as f:
    res=f.readlines()
    print(res)
强调:f.read()与f.readlines()都是将内容一次性读入内存,
如果内容过大会导致内存溢出,若还想将内容全读入内存,

写相关操作

1、f.writelines():

with open('h.txt',mode='wt',encoding='utf-8') as f:
      l=['11111\n','2222','3333']
       f.writelines(l)
补充1:如果是纯英文字符,可以直接加前缀b得到bytes类型
补充2'上'.encode('utf-8') 等同于bytes('上',encoding='utf-8')

2、flush:

with open('h.txt', mode='wt',encoding='utf-8') as f:
      f.flush()

3、了解

with open('h.txt', mode='wt',encoding='utf-8') as f:
    print(f.readable())
    print(f.writable())
    print(f.encoding)
    print(f.name)
    print(f.closed)

控制文件指针移动

1.指针移动的单位都是以bytes/字节为单位
2.只有一种情况特殊:t模式下的read(n),n代表的是字符个数

with open('aaa.txt',mode='rt',encoding='utf-8') as f:
    res=f.read(4)
    print(res)
f.seek(n,模式):n指的是移动的字节个数
模式0:参照物是文件开头位置

with open('aaa.txt',mode='rt',encoding='utf-8') as f:
f.seek(9,0)
模式1:参照物是当前指针所在位置

with open('aaa.txt',mode='rt',encoding='utf-8') as f:
f.seek(9,1)
模式2:参照物是文件末尾位置,应该倒着移动

with open('aaa.txt',mode='rt',encoding='utf-8') as f:
f.seek(-9,2)
强调:只有0模式可以在t下使用,12必须在b模式下用

f.tell() # 获取文件指针当前位置
例:

with open('aaa.txt',mode='rb') as f:
    f.seek(9,0)
    f.seek(3,0) # 3
    # print(f.tell())
    f.seek(4,0)
    res=f.read()
    print(res.decode('utf-8'))

with open('aaa.txt',mode='rb') as f:
    f.seek(9,1)
    f.seek(3,1) # 12
    print(f.tell())

with open('aaa.txt',mode='rb') as f:
    f.seek(-9,2)
    # print(f.tell())
    f.seek(-3,2)
 文件的系应该   # print(f.tell())
    print(f.read().decode('utf-8'))

修改文件的操作

文件a.txt内容如下

张一蛋     山东    179    49    12344234523
李二蛋     河北    163    57    13913453521
王全蛋     山西    153    62    18651433422

修改操作

with open('a.txt',mode='r+t',encoding='utf-8') as f:
    f.seek(9)
    f.write('<妇女主任>')

强调:
1、硬盘空间是无法修改的,硬盘中数据的更新都是用新内容覆盖旧内容
2、内存中的数据是可以修改的

方式一:文本编辑采用的就是这种方式
实现思路:将文件内容发一次性全部读入内存,然后在内存中修改完毕后再覆盖写回原文件
优点: 在文件修改过程中同一份数据只有一份
缺点: 会过多地占用内存


with open('c.txt',mode='rt',encoding='utf-8') as f:
    res=f.read()
    data=res.replace('alex','dsb')
    print(data)

with open('c.txt',mode='wt',encoding='utf-8') as f1:
    f1.write(data)

方式二:
实现思路:以读的方式打开原文件,以写的方式打开一个临时文件,一行行读取原文件内容,修改完后写入临时文件…,删掉原文件,将临时文件重命名原文件名
优点: 不会占用过多的内存
缺点: 在文件修改过程中同一份数据存了两份


import os
with open('c.txt', mode='rt', encoding='utf-8') as f, \
        open('.c.txt.swap', mode='wt', encoding='utf-8') as f1:
    for line in f:
        f1.write(line.replace('alex', 'dsb'))
os.remove('c.txt')
os.rename('.c.txt.swap', 'c.txt')
f = open('a.txt')
res = f.read()
print(res)
posted @ 2020-07-17 14:45  Orange-ONE  阅读(162)  评论(0编辑  收藏  举报