文件处理

阅读目录

  • 一 文件操作

  • 二 打开文件的模式

  • 三 操作文件的方法

  • 四 文件内光标移动

  • 五 文件的修改

一 文件操作

一、介绍

  文件:在计算机中指,是存储在某种长期储存设备上的一段数据流。所谓“长期储存设备”一般指磁盘光盘磁带等。其特点是所存信息可以长期、多次使用,不会因为断电而消失。

  操作:指的是动作或按照一定的规范和要领操纵动作。

  通过以上解释,文件操作就是把文件通过一定的规范和动作要领存入磁盘的过程。磁盘的动作有读 有写。

  计算机中保存数据的流程:应用程序(文件)-->  操作系统 --> 计算机硬件

二、python中 

  用python编写的应用程序若想要把数据永久保存下来,必须要保存于硬盘中,这就涉及到应用程序要操作硬件,众所周知,应用程序是无法直接操作硬件的,这就用到了操作系统。操作系统把复杂的硬件操作封装成简单的接口给用户/应用程序使用,其中文件就是操作系统提供给应用程序来操作硬盘虚拟概念,用户或应用程序通过操作文件,可以将自己的数据永久保存下来。

#1. 打开文件,得到文件句柄并赋值给一个变量
#2. 通过句柄对文件进行操作
#3. 关闭文件

   如此,我们只需要注意和研究文件在python 中的文件操作过程:

#1. 打开文件,得到文件句柄并赋值给一个变量
f=open('a.txt','r',encoding='utf-8') #默认打开模式就为r

#2. 通过句柄对文件进行操作
data=f.read()

#3. 关闭文件
f.close()

三、f=open(...)的运行过程

例子:小明去火车站买票做火车,在售票厅购买车票,进入火车站上车,到北京站下火车车票票被车站工作人员收回。

小明去火车站买票做火车:相当于我们用户要打开某个文件。

在售票厅购买车票:相当于我们通过python程序发出一个要open(...)

进入火车站上车:相当于open(...) 括号中的动作,读或者写等动作,也就是你买的坐票或卧票一样。

到站下车车票回收:相当于我们的文件关闭。

$1、由应用程序向操作系统发起系统调用open(...)

#2、操作系统打开该文件,并返回一个文件句柄给应用程序

#3、应用程序将文件句柄赋值给变量f

四、强调

#强调第一点:
打开一个文件包含两部分资源:操作系统级打开的文件+应用程序的变量。在操作完毕一个文件时,必须把与该文件的这两部分资源一个不落地回收,回收方法为:
1、f.close() #回收操作系统级打开的文件
2、del f #回收应用程序级的变量

其中del f一定要发生在f.close()之后,否则就会导致操作系统打开的文件还没有关闭,白白占用资源,
而python自动的垃圾回收机制决定了我们无需考虑del f,这就要求我们,在操作完毕文件后,一定要记住f.close()

虽然我这么说,但是很多同学还是会很不要脸地忘记f.close(),对于这些不长脑子的同学,我们推荐傻瓜式操作方式:使用with关键字来帮我们管理上下文
with open('a.txt','w') as f:
    pass
 
with open('a.txt','r') as read_f,open('b.txt','w') as write_f:
    data=read_f.read()
    write_f.write(data)

强调第一点:资源回收
资源回收
#强调第二点:
f=open(...)是由操作系统打开文件,那么如果我们没有为open指定编码,那么打开文件的默认编码很明显是操作系统说了算了,操作系统会用自己的默认编码去打开文件,在windows下是gbk,在linux下是utf-8。
这就用到了上节课讲的字符编码的知识:若要保证不乱码,文件以什么方式存的,就要以什么方式打开。

f=open('a.txt','r',encoding='utf-8')
字符编码

在资源回收时经常有人忘记文件关闭(close),推荐是使用with 打开文件省掉close 的步骤好用又方便:

with open('a.txt','w') as f:
    pass

五、了解:python2中file和open

#首先在python3中操作文件只有一种选择,那就是open()

#而在python2中则有两种方式:file()与open()
两者都能够打开文件,对文件进行操作,也具有相似的用法和参数,但是,这两种文件打开方式有本质的区别,file为文件类,用file()来打开文件,相当于这是在构造文件类,而用open()打开文件,是用python的内建函数来操作,我们一般使用open()打开文件进行操作,而用file当做一个类型,比如type(f) is file

二、打开文件的模式

文件句柄 = open('文件路径', '模式')

常用的文件模式及之间的组合

常用方式:
w:以写方式打开,
a: 以追加模式打开 (从 EOF 开始, 必要时创建新文件)
r+:以读写模式打开
b:
了解部分:
w+:以读写模式打开 (参见 w )
a+:以读写模式打开 (参见 a )
rb:以二进制读模式打开
wb:以二进制写模式打开 (参见 w )
ab:以二进制追加模式打开 (参见 a )
rb+:以二进制读写模式打开 (参见 r+ )
wb+:以二进制读写模式打开 (参见 w+ )
ab+:以二进制读写模式打开 (参见 a+ )

 

#1. 打开文件的模式有(默认为文本模式):
r ,只读模式【默认模式,文件必须存在,不存在则抛出异常】
w,只写模式【不可读;不存在则创建;存在则清空内容】
a, 之追加写模式【不可读;不存在则创建;存在则只追加内容】

#2. 对于非文本文件,我们只能使用b模式,"b"表示以字节的方式操作(而所有文件也都是以字节的形式存储的,使用这种模式无需考虑文本文件的字符编码、图片文件的jgp格式、视频文件的avi格式)
rb 
wb
ab
注:以b方式打开时,读取到的内容是字节类型,写入时也需要提供字节类型,不能指定编码

#3. 了解部分
"+" 表示可以同时读写某个文件
r+, 读写【可读,可写】
w+,写读【可读,可写】
a+, 写读【可读,可写】


x, 只写模式【不可读;不存在则创建,存在则报错】
x+ ,写读【可读,可写】
xb

三、操作文件的方法

一、基础操作

  操作文件的方法从三个方面入手,文件的读模式(r)、写模式(w)、追加模式(a)、二进制模式(b)。

  读模式(r):  

# 读模式的用法
# with open(r'a.txt','r',encoding='utf-8')as  f:
    # f=f.read()       #全文打印(缺点:如果文件太大内存会读爆)
    # f=f.readline()   #文件一行一行的读,适用于大文件的文件,最好搭配循环使用
    # f=f.readlines()  #全文打印,以列表的方式读出(缺点同read)切回车符也在列表中如下:
                       #['222222\n', '222222\n', '你好1\n', '你好\n', '你好\n']
    # f=f.readable()     # 了解即可。属于布尔值一块

  写模式(w): 只写模式,文件存在清空文件重新写入,不存在创建文件

#with open(r'a.txt','w',encoding='utf-8')as  w:
    # w.write('shao1')
    # w.writelines(['shao','shao1']) #多行写入,必须使用列表的形式写

  追加模式(a):文件不存在则创建,文件存在那么在打开文件后立刻将光标移动到文件末尾,进行追加写

# f=open(r'b.txt','a',encoding='utf-8')
# # print(f.writable())
# f.write('4444\n')
# f.write('5555\n')
# f.writelines(['66666\n','7777\n'])
# f.close()

  二进制模式(b):

# with open('111.png','rb') as f:
#     print(f.read())

# with open('b.txt','rb',) as f:
#     print(f.read().decode('utf-8'))

# with open('b.txt','wb') as f:
#     res='中问'.encode('utf-8')  #必须先转码 在写入
#     print(res,type(res))
#     f.write(res)


# with open('b.txt','ab') as f:
#     res='哈哈哈'.encode('utf-8')
#     print(res,type(res))
#     f.write(res)

 四 、文件内光标移动

 一、文件read 读取的文件字符

  在上面我们已经解除过使用read 的内置函数来读取文件的整个内容,如果我们想使用read 读取文件切是某一段的话,该怎么实现呢?

注意:assic码中一个汉字默认是3个字符(3个byte),一个英文字符是(1个byte)

#文件内容(a.tx):
你好啊?
二傻子?

读取全文:
with open('a.txt','r',encoding='utf-8') as read_f:
    f=read_f.read()
    print (f)

读取文中的某几个字段:
with open('a.txt','r',encoding='utf-8') as read_f:
    f=read_f.read(3)
    print (f)
 打印结果为:你

通过以上实例,我们知道reda(3):

  1. 文件打开方式为文本模式时,代表读取3个字符

  2. 文件打开方式为b模式时,代表读取3个字节

 二、其他光标移动方法

  其余的文件内光标移动都是以字节为单位如seek,tell,truncate

seek (移动光标)的用法:

    seek,光标移动默认都是从文件开头到结尾,也就是从左到右的顺序。seek有三种移动方式0,1,2,其中1和2必须在b模式下进行,但无论哪种模式,都是以bytes为单位移动的。

0:文件的开头

1:光标的当前位置

2:文件的末尾

# with open('c.txt','rb',) as f:
#     f.seek(6,0)   #意思是光标移动到第6个字节上,0代表文件的开头。那么(6,0)的意思就是以光标在6的的字节打印全文
#     # f.seek(8,0)
#     print(f.read())
# print(f.decode('utf-8'))
# with open('c.txt','rb') as f: 
#
print(f.read(6))
#
f.seek(2,1) #光标移动2个byte,1代表光标当前的位置,也就是在第2个字节处
#
print(f.tell()) #告诉你光标当前所在的位置
#
print(f.read().decode('utf-8'))

# with open('c.txt','rb') as f:
#
# f.seek(-3,2) #2 表示文件末尾,-3 这代表是文件末尾的3个字节
#
# print(f.tell())
#
f.seek(0,2)
"""
文件光标移动,光标永远在文件末尾
    通过别的程序写入查看效果。
    类似于命令tail -f a.txt (实时文件写入查看)
"""
import time
with open('a.txt','rb') as read_f:
    read_f.seek(0,2) #光标在2的模式下是永远在文件末尾
    while True:
        line=read_f.readline()
        if line: #if line 使用的是布尔(boolr)形式,布尔就是真假,只有布尔值是0,空,none 时为假,反之为真
            print(line.decode('utf-8'),end='')  #print(line,end='') 该样式看不到结果,是因为把print的自带的回车符去掉了
        else:
            time.sleep(0.5) # 休眠0.5秒
练习,使用seek实现tail -f 命令效果

 五、文件的修改

   文件的数据是存放于硬盘上的,因而只存在覆盖、不存在修改这么一说,我们平时看到的修改文件,都是模拟出来的效果,具体的说有两种实现方式:

方式一:将硬盘存放的该文件的内容全部加载到内存,在内存中是可以修改的,修改完毕后,再由内存覆盖到硬盘(word,vim,nodpad++等编辑器)

复制代码
import os

with open('a.txt') as read_f,open('.a.txt.swap','w') as write_f:
    data=read_f.read() #全部读入内存,如果文件很大,会很卡
    data=data.replace('alex','SB') #在内存中完成修改

    write_f.write(data) #一次性写入新文件

os.remove('a.txt')
os.rename('.a.txt.swap','a.txt') 
复制代码

方式二:将硬盘存放的该文件的内容一行一行地读入内存,修改完毕就写入新文件,最后用新文件覆盖源文件

复制代码
import os

with open('a.txt') as read_f,open('.a.txt.swap','w') as write_f:
    for line in read_f:
        line=line.replace('alex','SB')
        write_f.write(line)

os.remove('a.txt')
os.rename('.a.txt.swap','a.txt') 
复制代码

 

 六、练习

1. 文件a.txt内容:每一行内容分别为商品名字,价钱,个数,求出本次购物花费的总钱数
apple 10 3
tesla 100000 1
mac 3000 2
lenovo 30000 3
chicken 10 3
total=0
with open('a.txt','r',encoding='utf-8') as f:
    for i in f:
        p=int(i.split()[1])*int(i.split()[2])
        total+=p
    print(total)
过程

 

 

 

 

 

 

 

 

 

posted @ 2017-12-18 17:49  追逐不可能β③  阅读(536)  评论(0编辑  收藏  举报