Python中的文件

目标：

文件的概念
文件的基本操作
文件/文件夹的常用操作
文本文件的编码方式

1.文件的概念

1.1文件的概念和作用

计算机的文件，就是存储在某种长期存储设备上的一段数据
长期存储设备包括：硬盘、U盘、移动硬盘、光盘····

　　文件的作用：

　　将数据长期存储下来，在需要的时候使用

1.2文件的存储方式

在计算机中，文件是以二进制的方式保存在磁盘上的

　　文本文件和二进制文件

文本文件
- 可以用文本编辑软件查看
- 本质上还是二进制
- 例如：Python源文件
二进制文件
- 保存的内容不是给人直接阅读的，而是提供给其他软件使用的
- 例如：图片文件、音频文件、视频文件等等
- 二进制文件不能直接使用文本编辑器查看

2.文件的基本操作

2.1操作文件的套路

　　在计算机中，要操作文件的套路非常固定，一共包含三个步骤：

打开文件
读、写文件
- 读：将文件内容读入内存
- 写：将内存内容写入文件
关闭文件

2.2操作文件的函数/方法

在Python中操作文件需要记住1个函数和3个方法

序号	函数/方法	说明
1	open	打开文件，并返回文件操作对象
2	read	将文件内容读取到内存
3	write	将指定内容写入到文件
4	close	关闭文件

open() 函数负责打开文件，并返回文件对象
read/write/close三个方法都需要通过文件对象来调用

2.3read方法——读取文件

open函数的第一个参数，是被打开的文件名（文件名区分大小写）
- 如果文件存在，返回文件操作对象
- 如果文件不存在，会抛出异常
read方法可以一次性读入并返回文件的所有内容
close方法负责关闭文件
- 如果忘记关闭文件，会造成系统资源消耗，而且会影响到后续对文件的访问
注意：方法执行后，会把文件指针移动到文件的末尾
提示：
- 在开发中，通常先编写打开和关闭的代码，在编写中间针对文件读/写操作！

#获得文件操作对象（sis.txt文件）
file = open("sis.txt")
#读取
text = file.read()
print(text)
#关闭文件
file.close()
'''
运行结果
我是中文的哦
nidie中文
'''

文件指针

文件指针标记从那个位置开始读取数据
第一次打开文件时，通常文件指针会指向文件开始的位置
当执行了read方法后，文件指针会移动到读取内容的末尾
- 默认情况下会移动到文件末尾

思考：如果执行了一次read方法，读取了所有内容，那么再次调用read方法还能获取到内容吗？

答案：不能。第一次读取内容后，文件指针移动到文件末尾，再次调用不会读取到任何内容

 1 #获得文件操作对象（sis.txt文件）
 2 file = open("sis.txt")
 3 #读取
 4 text = file.read()
 5 #查看读取文件的长度  (14)
 6 print(len(text))
 7 #输出读取到的文件
 8 print(text)
 9 print("*"*30)
10 #重新读取文件
11 text = file.read()
12 print(text)         #  空
13 print(len(text))    # （0）
14 #关闭文件
15 file.close()
16 
17 """
18 运行结果：
19 14
20 我是中文的哦
21 nidie中文
22 ******************************
23 
24 0
25 """

文件指针演示

2.4打开文件的方式

open函数默认以只读方式打开，并返回文件对象

　　语法如下：

- f = open( " 文件名 " ， " 访问方式 " )
x:以x打开一个文件，如果这个文件存在，那么报错
t：以t打开一个文件，底层是以二进制的形式打开，但是会默认帮我们将文件解码（linux:默认以UTF-8）.
b：以b打开一个文件，是以二进制的形式打开，获取到的信息都是字节。

r+、rt+、rb+，默认光标位置：起始位置
w+、wt+、wb+，默认光标位置：起始位置（清空文件）
- x+、xt+、xb+，默认光标位置：起始位置（新文件）
- a+、at+、ab+，默认光标位置：末尾

提示：频繁的移动指针，会影响文件读写效率，开发中更多的时候会以只读、只写的方式来操作文件

2.5读写文件内容

read，读

读所有【常用】

f = open('info.txt', mode='r',encoding='utf-8')
data = f.read()
f.close()

f = open('info.txt', mode='rb')
data = f.read()
f.close()

读n个字符（字节）【会用到】

f = open('info.txt', mode='r', encoding='utf-8')
# 读1个字符
data = f.read(1)
f.close()
print(data) # 武


f = open('info.txt', mode='rb')
# 读1个字节
data = f.read(3)
f.close()
print(data, type(data))  # b'\xe6\xad\xa6' <class 'bytes'>

read方法默认会把文件的所有内容一次性读到内存
如果文件太大，对内存的占用会非常严重

　　readline 方法：

- 可以一次读取一行内容
- 方法执行后，会把指针移动到下一行，准备再次读取

　　读取大文件的姿势：

 1 #打开文件
 2 file = open("sis.txt")
 3 while True:
 4     #读取一行内容
 5     text = file.readline()
 6     #判断是否读取到内容
 7     if text == "":          #或者 if not text:
 8         print(type(text))   #<class 'str'>
 9         break
10     #每读取到末尾都会有一个 \n
11     print(text,end="")
12 """
13 运行结果：
14 python1一
15 python2二
16 python3三
17 python4四<class 'str'>
18 """

View Code

readlines，读所有行，每行作为列表的一个元素

f = open('info.txt', mode='rb')
data_list = f.readlines()
f.close()
print(data_list)

循环，读大文件（readline加强版）【常见】

f = open('info.txt', mode='r', encoding='utf-8')
for line in f:
    print(line.strip())
f.close()

write，写

f = open('info.txt', mode='a',encoding='utf-8')
f.write("你好")
f.close()

f = open('info.txt', mode='ab')
f.write( "你好".encode("utf-8") )
f.close()

flush，刷到硬盘

f = open('info.txt', mode='a',encoding='utf-8')
while True:
    # 不是写到了硬盘，而是写在缓冲区，系统会将缓冲区的内容刷到硬盘。
    f.write("你好")
    f.flush()
f.close()

　　移动光标位置（字节）

f = open('info.txt', mode='r+', encoding='utf-8')
# 移动到指定字节的位置
f.seek(3)
f.write("武沛齐")
f.close()

移动到指定字节的位置，再插入数据时，会覆盖后面的数据

注意：在a模式下，调用write在文件中写入内容时，永远只能将内容写入到尾部，不会写到光标的位置。

　　获取当前光标位置（按字节算）

f = open('info.txt', mode='r', encoding='utf-8')
p1 = f.tell()
print(p1)  # 0
f.read(3)  # 读3个字符 3*3=9字节
p2 = f.tell()
print(p2)  # 9
f.close()


f = open('info.txt', mode='rb')
p1 = f.tell()
print(p1)  # 0
f.read(3)  # 读3个字节
p2 = f.tell()
print(p2)  # 3
f.close()

2.6文件读写案例——复制文件

目标：用代码实现文件的复制过程

小文件复制

打开一个已有文件，读取完整内容，并写入到另一个文件

 1 #复制小文件方式1
 2 file_read = open("sis.txt","r")
 3 file_write = open("test.txt","w")
 4 text_1 = file_read.read()
 5 text_2 = file_write.write(text_1)
 6 file_write.close()
 7 file_read.close()
 8 
 9 #复制小文件方式2 推荐（with关键字，会自动释放文件对象空间）
10 test = None
11 with open("sis.txt","r") as file:
12     test = file.read()
13 with open("test1.txt","w") as file:
14     file.write(test)

小文件复制

大文件复制

打开一个已有文件，逐行读取内容，并顺序写入到另一个文件

 1 #大文件复制
 2 file_read = open("五笔词根1.jpg","rb")
 3 file_write = open("五笔词根2.jpg","wb")
 4 while True:
 5     text = file_read.readline()
 6     #python中，除了‘’、""、0、()、[]、{}、None为False， 其他转换都为True。 也就是说字符串如果不为空，则永远转换为True。
 7     if not text:
 8         break
 9     file_write.write(text)
10 file_read.close()
11 file_write.close()

大文件复制

2.7上下文管理、文件读写中的函数

之前对文件进行操作时，每次都要打开和关闭文件，比较繁琐且容易忘记关闭文件。

以后再进行文件操作时，推荐大家使用with上下文管理，它可以自动实现关闭文件。

with open("xxxx.txt", mode='rb') as file_object:
    data = file_object.read()
    print(data)

在Python 2.7 后，with又支持同时对多个文件的上下文进行管理，即：

with open("xxxx.txt", mode='rb') as f1, open("xxxx.txt", mode='rb') as f2:
    pass

文件读取 — Python 3.10.1 文档

3.文件/目录的常用管理操作

在终端/文件浏览中可以执行常规的 文件/目录 管理操作，例如
- 创建、重命名、删除、改变路劲、查看目录内容........
在Python中如果希望通过程序实现上述功能，需要导入 os 模块

　　文件操作：

　　目录操作：

提示：文件或者目录操作，都支持 相对路径 和 绝对路劲

4.文本文件的编码方式

pass

# -*- coding: utf8 -*-

# -*- coding: utf-8 -*-

# -*- coding: gbk -*-

读文件：

r打开文件，默认使用GBK(windows是默认GBK，但是MAC和linux是默认UTF-8)的编码格式打开，所以在读文件时，默认编码需要与文件编码相同否则报错
rb打开文件，是一个字节流，所以需要decode（）解码，默认decode("utf-8"）
rt打开，以文本的形式打开一个文件（默认使用（windows是默认GBK，但是MAC和linux是默认UTF-8）打开文件）
由上可知，python中的默认编码是基于操作系统决定的 UTF-8：MAC、linux GBK:WIN

写文件：

w打开文件，默认使用GBK(windows是默认GBK，但是MAC和linux是默认UTF-8)的编码格式打开，所以在写文件时，如果文件已存在并且该文件的默认编码，与打开时的编码不同，也会乱码（因为它只会清空文件，不会修改文件的编码格式）。在写文件时，不需要encode。
wb打开二进制文件，不会受到编码影响，在write写入文件时，需要encode（）压缩，压缩时指定编码，那么生成的文件就是什么编码。
wt打开一个文件（默认使用（windows是默认GBK，但是MAC和linux是默认UTF-8）打开文件）,在写入文件时，如果文件已经存在，那么文件编码与wt编码不同时，一样会乱码（原理同1）。

所以：在打开一个文件时，最好指定其编码格式，推荐为UTF-8

5.csv格式文件

逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。

对于这种格式的数据，我们需要利用open函数来读取文件并根据逗号分隔的特点来进行处理。

CSV文件内容

练习题案例：下载文档中的所有图片且以用户名为图片名称存储。

import requests
import os
with open("test.txt", mode="r", encoding="utf-8") as read_f:
    read_f.readline()
    for line in read_f:
        user_id, name, url = line.strip().split(",")
        res = requests.get(
            url=url,
            headers={
                "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"
            }
        )
        if not os.path.exists("images"):    #判断文件夹是否存在，如果不存在，就创建
            os.makedirs("images")
        with open("images/{}.png".format(name), mode="wb") as write_f:
            write_f.write(res.content)

View Code

6.ini格式文件

ini文件是Initialization File的缩写，平时用于存储软件的的配置文件。例如：MySQL数据库的配置文件。

[mysqld]
datadir=/var/lib/mysql
socket=/var/lib/mysql/mysql.sock
log-bin=py-mysql-bin
character-set-server=utf8
collation-server=utf8_general_ci
log-error=/var/log/mysqld.log
# Disabling symbolic-links is recommended to prevent assorted security risks
symbolic-links=0

[mysqld_safe]
log-error=/var/log/mariadb/mariadb.log
pid-file=/var/run/mariadb/mariadb.pid

[client]
default-character-set=utf8

这种格式是可以直接使用open来出来，考虑到自己处理比较麻烦，所以Python为我们提供了更为方便的方式。configparser（配置解析器）

import configparser
# 获取可以处理ini文件的对象
config = configparser.ConfigParser()
# 打开文件
config.read("test.ini", encoding="UTF-8")

# 1.获取所有节点    sections()（章节）
result = config.sections()
print(result)

# 2.获取节点下的键值  items(): 返回一个列表，列表中存储键值对，键值对以元组的形式存储
result = config.items("mysqld")
print(result)
for x, y in config.items("mysqld_safe"):  # 可以使用这种方式将键值对取出
    print(x, y)

# 3.获取节点下，键对应的值 get()
result = config.get("mysqld", "datadir")
print(result)

# 4.检测节点是否存在  has_section()
result = config.has_section("mysqld")
print(result)

# 5.增加一个节点 add_section()：如果节点已经存在，那么会报错
config.add_section("root")

# 6.给节点设置键值 set():节点必须存在，可创建键值对，也可修改值
config.set("root", "niha", "456")
config.set("root", "niha1", "456")

# 7.删除节点 remove_section() ：会删除节点下的所有键值对
config.remove_section("root")

# 8.删除节点下的键值对 remove_option(节点,键)
config.remove_option("root", "niha")

# 4-8操作虽然给文件更改了数据，但是数据还在缓冲区中，所以在修改了文件后，需要使用write写入
config.write(open('test.ini', 'w'))

5.拓展：eval函数

eval函数功能非常强大——将字符串当成有效的表达式来求值，并返回计算结果

# -*- coding: gbk -*-
#基本的数学计算
print(eval("1+1"))
#字符串重复
print(eval("'*'*30"))
#将字符串转变成列表
print(type(eval("[1,2,3,4,5]")))
#将字符串转变成元组
print(type(eval("(1,2,3,4,5)")))
#将字符串转变成字典
print(type(eval("{'name':'苹果','age':18}")))

案例——计算器

input_str = input("输入算数题")
print(eval(input_str))
'''
运行：
输入算数题1+1
2
'''

注意：在开发的时候千万不要使用 eval 直接转换 input 的结果