人工智能之编程基础 Python 入门

第十章 文件读写


@


前言

本章节主要学习python的文件读写操作,文件读写(File I/O) 是程序与外部存储交互的基础操作。Python 提供了简洁而强大的内置函数和上下文管理器来处理各种文件操作。


1. 基本文件操作

1.1 打开文件:open()

# 基本语法
file = open(filename, mode, encoding=None)

# 常用模式
# 'r'  - 只读(默认)
# 'w'  - 写入(覆盖原内容)
# 'a'  - 追加(在文件末尾添加)
# 'x'  - 独占创建(文件已存在则失败)
# 'b'  - 二进制模式(如 'rb', 'wb')
# 't'  - 文本模式(默认,如 'rt', 'wt')
# '+'  - 读写模式(如 'r+', 'w+')

1.2 推荐方式:使用 with 语句(上下文管理器)

# 自动关闭文件,即使发生异常
with open('example.txt', 'r', encoding='utf-8') as f:
    content = f.read()
    print(content)
# 文件在此处自动关闭

✅ ​强烈推荐使用 with 语句​,避免忘记关闭文件导致资源泄露。


2. 读取文件

2.1 读取整个文件

# 读取全部内容为字符串
with open('file.txt', 'r', encoding='utf-8') as f:
    content = f.read()
    print(content)

2.2 逐行读取

# 方法1:readline() - 每次读取一行
with open('file.txt', 'r', encoding='utf-8') as f:
    line = f.readline()
    while line:
        print(line.strip())  # strip() 去除换行符
        line = f.readline()

# 方法2:readlines() - 读取所有行到列表
with open('file.txt', 'r', encoding='utf-8') as f:
    lines = f.readlines()
    for line in lines:
        print(line.strip())

# 方法3:直接遍历文件对象(最高效)
with open('file.txt', 'r', encoding='utf-8') as f:
    for line in f:
        print(line.strip())

2.3 读取指定字符数

with open('file.txt', 'r', encoding='utf-8') as f:
    chunk = f.read(100)  # 读取前100个字符
    print(chunk)

3. 写入文件

3.1 写入字符串

# 覆盖写入
with open('output.txt', 'w', encoding='utf-8') as f:
    f.write('Hello, World!\n')
    f.write('这是第二行\n')

# 追加写入
with open('output.txt', 'a', encoding='utf-8') as f:
    f.write('这是追加的内容\n')

3.2 写入多行

lines = ['第一行\n', '第二行\n', '第三行\n']

# 方法1:循环写入
with open('output.txt', 'w', encoding='utf-8') as f:
    for line in lines:
        f.write(line)

# 方法2:writelines()
with open('output.txt', 'w', encoding='utf-8') as f:
    f.writelines(lines)

⚠️ 注意:writelines() 不会自动添加换行符,需要手动添加。


4. 文件指针操作

4.1 获取和设置文件位置

with open('file.txt', 'r', encoding='utf-8') as f:
    print(f.tell())  # 当前位置(字节)
    
    content = f.read(10)
    print(f.tell())  # 读取10字节后的位置
    
    f.seek(0)        # 回到文件开头
    print(f.read(5)) # 重新读取前5个字符

4.2 常用 seek 参数

f.seek(0)      # 文件开头
f.seek(0, 2)   # 文件末尾 (0偏移,从末尾开始)
f.seek(-10, 2) # 倒数第10个字节

5. 二进制文件操作

5.1 读写二进制文件

# 读取二进制文件(如图片、音频)
with open('image.jpg', 'rb') as f:
    data = f.read()
    print(f"文件大小: {len(data)} 字节")

# 写入二进制数据
with open('copy.jpg', 'wb') as f:
    f.write(data)

5.2 处理字节数据

# 写入字节
with open('binary.dat', 'wb') as f:
    f.write(b'Hello World')
    f.write(bytes([0, 1, 2, 3, 4]))

# 读取字节
with open('binary.dat', 'rb') as f:
    data = f.read()
    print(data)        # b'Hello World\x00\x01\x02\x03\x04'
    print(data[0])     # 72 (H的ASCII码)

6. 常见文件操作场景

6.1 配置文件读写

# 读取配置文件
def read_config(filename):
    config = {}
    with open(filename, 'r', encoding='utf-8') as f:
        for line in f:
            line = line.strip()
            if line and not line.startswith('#'):
                key, value = line.split('=', 1)
                config[key.strip()] = value.strip()
    return config

# 写入配置文件
def write_config(filename, config):
    with open(filename, 'w', encoding='utf-8') as f:
        for key, value in config.items():
            f.write(f"{key} = {value}\n")

6.2 CSV 文件处理(推荐使用 csv 模块)

import csv

# 写入 CSV
with open('data.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['姓名', '年龄', '城市'])
    writer.writerow(['张三', 25, '北京'])
    writer.writerow(['李四', 30, '上海'])

# 读取 CSV
with open('data.csv', 'r', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

6.3 JSON 文件处理

import json

# 写入 JSON
data = {'name': 'Alice', 'age': 25, 'hobbies': ['reading', 'swimming']}
with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=2)

# 读取 JSON
with open('data.json', 'r', encoding='utf-8') as f:
    loaded_data = json.load(f)
    print(loaded_data)

7. 文件和目录操作(os 和 pathlib)

7.1 使用 os 模块

import os

# 检查文件是否存在
if os.path.exists('file.txt'):
    print("文件存在")

# 获取文件大小
size = os.path.getsize('file.txt')

# 列出目录内容
files = os.listdir('.')

# 创建目录
os.makedirs('new_dir', exist_ok=True)

# 删除文件
os.remove('old_file.txt')

7.2 使用 pathlib(Python 3.4+ 推荐)

from pathlib import Path

# 创建 Path 对象
file_path = Path('data') / 'input.txt'

# 检查文件是否存在
if file_path.exists():
    print("文件存在")

# 读取文件
content = file_path.read_text(encoding='utf-8')

# 写入文件
file_path.write_text('Hello World', encoding='utf-8')

# 创建目录
file_path.parent.mkdir(parents=True, exist_ok=True)

# 遍历目录
for file in Path('.').glob('*.py'):
    print(file)

8. 异常处理

8.1 处理文件操作异常

try:
    with open('nonexistent.txt', 'r', encoding='utf-8') as f:
        content = f.read()
except FileNotFoundError:
    print("文件未找到")
except PermissionError:
    print("没有权限访问文件")
except UnicodeDecodeError:
    print("文件编码错误")
except Exception as e:
    print(f"其他错误: {e}")

8.2 安全的文件操作函数

def safe_read_file(filename, encoding='utf-8'):
    """安全读取文件"""
    try:
        with open(filename, 'r', encoding=encoding) as f:
            return f.read()
    except FileNotFoundError:
        print(f"文件 {filename} 不存在")
        return None
    except Exception as e:
        print(f"读取文件 {filename} 时出错: {e}")
        return None

9. 性能优化技巧

9.1 大文件处理

# 逐块读取大文件(避免内存溢出)
def process_large_file(filename, chunk_size=8192):
    with open(filename, 'r', encoding='utf-8') as f:
        while True:
            chunk = f.read(chunk_size)
            if not chunk:
                break
            # 处理数据块
            process_chunk(chunk)

def process_chunk(chunk):
    # 处理逻辑
    print(f"处理了 {len(chunk)} 个字符")

9.2 缓冲区设置

# 自定义缓冲区大小
with open('large_file.txt', 'r', buffering=8192) as f:
    # 默认缓冲区通常是 8192 字节
    content = f.read()

10. 最佳实践总结

✅ 推荐做法

  1. 始终使用 with 语句处理文件
  2. 明确指定编码​(通常是 utf-8
  3. 使用 pathlib 而不是字符串拼接路径
  4. 处理异常​,特别是 FileNotFoundError
  5. 大文件逐行或分块处理​,避免内存问题
  6. 使用专门的模块处理特定格式(如 csvjsonxml

❌ 避免的做法

# 错误1:忘记关闭文件
f = open('file.txt', 'r')
content = f.read()
# f.close() 被忘记了!

# 错误2:不指定编码
with open('file.txt', 'r') as f:  # 可能在某些系统上出错
    content = f.read()

# 错误3:字符串拼接路径
filename = 'data/' + 'file.txt'  # 跨平台问题

✅ 正确做法

from pathlib import Path

# 使用 pathlib 处理路径
data_dir = Path('data')
filename = data_dir / 'file.txt'

# 安全的文件操作
try:
    with open(filename, 'r', encoding='utf-8') as f:
        content = f.read()
except FileNotFoundError:
    print(f"文件不存在: {filename}")

11. 实用工具函数

from pathlib import Path
import json

def read_lines(filename):
    """读取文件所有行,返回列表(去除换行符)"""
    try:
        return Path(filename).read_text(encoding='utf-8').splitlines()
    except Exception as e:
        print(f"读取文件失败: {e}")
        return []

def write_lines(filename, lines):
    """写入行列表到文件"""
    try:
        Path(filename).write_text('\n'.join(lines) + '\n', encoding='utf-8')
        return True
    except Exception as e:
        print(f"写入文件失败: {e}")
        return False

def backup_file(filename):
    """创建文件备份"""
    src = Path(filename)
    if src.exists():
        backup = src.with_suffix(src.suffix + '.bak')
        backup.write_bytes(src.read_bytes())
        return backup
    return None

总结

本文主要介绍python的文件读写操作,也是python入门的结束,关于数据结构、爬虫、以及面向对象等更高一层的需要继续学习,同时也需要掌握相关的算法库。

感想

当下经济形式的严峻,并不能阻止我们努力向前,人工智能不论是否当前泡沫化,与当初的互联网类似,是未来发展的趋势,也是不可阻挡的。我们只有拥抱它,一方面提升知识储备即根基,避免过度依赖ai失去了人本身的创造能力,一方面借助ai来达到更进一步的满足市场的需求。

资料关注

相关资料获取:
公众号:咚咚王

艺术二维码.png

《Python编程:从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计(第四版) (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《(西瓜书)周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别(第四版)》
《深度学习 deep learning》伊恩·古德费洛著 花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen) 》
《自然语言处理综论 第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC:智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型(中文版)》
《实战AI大模型》
《AI 3.0》

 posted on 2025-11-17 20:04  咚咚王者  阅读(1)  评论(0)    收藏  举报