人工智能之编程基础 Python 入门

第十章文件读写

@
目录
人工智能之编程基础 Python 入门
前言
1. 基本文件操作
1.1 打开文件：open()
1.2 推荐方式：使用 with 语句（上下文管理器）
2. 读取文件
2.1 读取整个文件
2.2 逐行读取
2.3 读取指定字符数
3. 写入文件
3.1 写入字符串
3.2 写入多行
4. 文件指针操作
4.1 获取和设置文件位置
4.2 常用 seek 参数
5. 二进制文件操作
5.1 读写二进制文件
5.2 处理字节数据
6. 常见文件操作场景
6.1 配置文件读写
6.2 CSV 文件处理（推荐使用 csv 模块）
6.3 JSON 文件处理
7. 文件和目录操作（os 和 pathlib）
7.1 使用 os 模块
7.2 使用 pathlib（Python 3.4+ 推荐）
8. 异常处理
8.1 处理文件操作异常
8.2 安全的文件操作函数
9. 性能优化技巧
9.1 大文件处理
9.2 缓冲区设置
10. 最佳实践总结
✅ 推荐做法
❌ 避免的做法
✅ 正确做法
11. 实用工具函数
总结
感想
资料关注

前言

本章节主要学习python的文件读写操作，文件读写（File I/O） 是程序与外部存储交互的基础操作。Python 提供了简洁而强大的内置函数和上下文管理器来处理各种文件操作。

1. 基本文件操作

1.1 打开文件：`open()`

# 基本语法
file = open(filename, mode, encoding=None)

# 常用模式
# 'r'  - 只读（默认）
# 'w'  - 写入（覆盖原内容）
# 'a'  - 追加（在文件末尾添加）
# 'x'  - 独占创建（文件已存在则失败）
# 'b'  - 二进制模式（如 'rb', 'wb'）
# 't'  - 文本模式（默认，如 'rt', 'wt'）
# '+'  - 读写模式（如 'r+', 'w+'）

1.2 推荐方式：使用 `with` 语句（上下文管理器）

# 自动关闭文件，即使发生异常
with open('example.txt', 'r', encoding='utf-8') as f:
    content = f.read()
    print(content)
# 文件在此处自动关闭

✅ 强烈推荐使用 with 语句，避免忘记关闭文件导致资源泄露。

2. 读取文件

2.1 读取整个文件

# 读取全部内容为字符串
with open('file.txt', 'r', encoding='utf-8') as f:
    content = f.read()
    print(content)

2.2 逐行读取

# 方法1：readline() - 每次读取一行
with open('file.txt', 'r', encoding='utf-8') as f:
    line = f.readline()
    while line:
        print(line.strip())  # strip() 去除换行符
        line = f.readline()

# 方法2：readlines() - 读取所有行到列表
with open('file.txt', 'r', encoding='utf-8') as f:
    lines = f.readlines()
    for line in lines:
        print(line.strip())

# 方法3：直接遍历文件对象（最高效）
with open('file.txt', 'r', encoding='utf-8') as f:
    for line in f:
        print(line.strip())

2.3 读取指定字符数

with open('file.txt', 'r', encoding='utf-8') as f:
    chunk = f.read(100)  # 读取前100个字符
    print(chunk)

3. 写入文件

3.1 写入字符串

# 覆盖写入
with open('output.txt', 'w', encoding='utf-8') as f:
    f.write('Hello, World!\n')
    f.write('这是第二行\n')

# 追加写入
with open('output.txt', 'a', encoding='utf-8') as f:
    f.write('这是追加的内容\n')

3.2 写入多行

lines = ['第一行\n', '第二行\n', '第三行\n']

# 方法1：循环写入
with open('output.txt', 'w', encoding='utf-8') as f:
    for line in lines:
        f.write(line)

# 方法2：writelines()
with open('output.txt', 'w', encoding='utf-8') as f:
    f.writelines(lines)

⚠️ 注意：writelines() 不会自动添加换行符，需要手动添加。

4. 文件指针操作

4.1 获取和设置文件位置

with open('file.txt', 'r', encoding='utf-8') as f:
    print(f.tell())  # 当前位置（字节）
    
    content = f.read(10)
    print(f.tell())  # 读取10字节后的位置
    
    f.seek(0)        # 回到文件开头
    print(f.read(5)) # 重新读取前5个字符

4.2 常用 seek 参数

f.seek(0)      # 文件开头
f.seek(0, 2)   # 文件末尾 (0偏移，从末尾开始)
f.seek(-10, 2) # 倒数第10个字节

5. 二进制文件操作

5.1 读写二进制文件

# 读取二进制文件（如图片、音频）
with open('image.jpg', 'rb') as f:
    data = f.read()
    print(f"文件大小: {len(data)} 字节")

# 写入二进制数据
with open('copy.jpg', 'wb') as f:
    f.write(data)

5.2 处理字节数据

# 写入字节
with open('binary.dat', 'wb') as f:
    f.write(b'Hello World')
    f.write(bytes([0, 1, 2, 3, 4]))

# 读取字节
with open('binary.dat', 'rb') as f:
    data = f.read()
    print(data)        # b'Hello World\x00\x01\x02\x03\x04'
    print(data[0])     # 72 (H的ASCII码)

6. 常见文件操作场景

6.1 配置文件读写

# 读取配置文件
def read_config(filename):
    config = {}
    with open(filename, 'r', encoding='utf-8') as f:
        for line in f:
            line = line.strip()
            if line and not line.startswith('#'):
                key, value = line.split('=', 1)
                config[key.strip()] = value.strip()
    return config

# 写入配置文件
def write_config(filename, config):
    with open(filename, 'w', encoding='utf-8') as f:
        for key, value in config.items():
            f.write(f"{key} = {value}\n")

6.2 CSV 文件处理（推荐使用 csv 模块）

import csv

# 写入 CSV
with open('data.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['姓名', '年龄', '城市'])
    writer.writerow(['张三', 25, '北京'])
    writer.writerow(['李四', 30, '上海'])

# 读取 CSV
with open('data.csv', 'r', encoding='utf-8') as f:
    reader = csv.reader(f)
    for row in reader:
        print(row)

6.3 JSON 文件处理

import json

# 写入 JSON
data = {'name': 'Alice', 'age': 25, 'hobbies': ['reading', 'swimming']}
with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=2)

# 读取 JSON
with open('data.json', 'r', encoding='utf-8') as f:
    loaded_data = json.load(f)
    print(loaded_data)

7. 文件和目录操作（os 和 pathlib）

7.1 使用 `os` 模块

import os

# 检查文件是否存在
if os.path.exists('file.txt'):
    print("文件存在")

# 获取文件大小
size = os.path.getsize('file.txt')

# 列出目录内容
files = os.listdir('.')

# 创建目录
os.makedirs('new_dir', exist_ok=True)

# 删除文件
os.remove('old_file.txt')

7.2 使用 `pathlib`（Python 3.4+ 推荐）

from pathlib import Path

# 创建 Path 对象
file_path = Path('data') / 'input.txt'

# 检查文件是否存在
if file_path.exists():
    print("文件存在")

# 读取文件
content = file_path.read_text(encoding='utf-8')

# 写入文件
file_path.write_text('Hello World', encoding='utf-8')

# 创建目录
file_path.parent.mkdir(parents=True, exist_ok=True)

# 遍历目录
for file in Path('.').glob('*.py'):
    print(file)

8. 异常处理

8.1 处理文件操作异常

try:
    with open('nonexistent.txt', 'r', encoding='utf-8') as f:
        content = f.read()
except FileNotFoundError:
    print("文件未找到")
except PermissionError:
    print("没有权限访问文件")
except UnicodeDecodeError:
    print("文件编码错误")
except Exception as e:
    print(f"其他错误: {e}")

8.2 安全的文件操作函数

def safe_read_file(filename, encoding='utf-8'):
    """安全读取文件"""
    try:
        with open(filename, 'r', encoding=encoding) as f:
            return f.read()
    except FileNotFoundError:
        print(f"文件 {filename} 不存在")
        return None
    except Exception as e:
        print(f"读取文件 {filename} 时出错: {e}")
        return None

9. 性能优化技巧

9.1 大文件处理

# 逐块读取大文件（避免内存溢出）
def process_large_file(filename, chunk_size=8192):
    with open(filename, 'r', encoding='utf-8') as f:
        while True:
            chunk = f.read(chunk_size)
            if not chunk:
                break
            # 处理数据块
            process_chunk(chunk)

def process_chunk(chunk):
    # 处理逻辑
    print(f"处理了 {len(chunk)} 个字符")

9.2 缓冲区设置

# 自定义缓冲区大小
with open('large_file.txt', 'r', buffering=8192) as f:
    # 默认缓冲区通常是 8192 字节
    content = f.read()

10. 最佳实践总结

✅ 推荐做法

始终使用 with 语句处理文件
明确指定编码（通常是 utf-8）
使用 pathlib 而不是字符串拼接路径
处理异常，特别是 FileNotFoundError
大文件逐行或分块处理，避免内存问题
使用专门的模块处理特定格式（如 csv、json、xml）

❌ 避免的做法

# 错误1：忘记关闭文件
f = open('file.txt', 'r')
content = f.read()
# f.close() 被忘记了！

# 错误2：不指定编码
with open('file.txt', 'r') as f:  # 可能在某些系统上出错
    content = f.read()

# 错误3：字符串拼接路径
filename = 'data/' + 'file.txt'  # 跨平台问题

✅ 正确做法

from pathlib import Path

# 使用 pathlib 处理路径
data_dir = Path('data')
filename = data_dir / 'file.txt'

# 安全的文件操作
try:
    with open(filename, 'r', encoding='utf-8') as f:
        content = f.read()
except FileNotFoundError:
    print(f"文件不存在: {filename}")

11. 实用工具函数

from pathlib import Path
import json

def read_lines(filename):
    """读取文件所有行，返回列表（去除换行符）"""
    try:
        return Path(filename).read_text(encoding='utf-8').splitlines()
    except Exception as e:
        print(f"读取文件失败: {e}")
        return []

def write_lines(filename, lines):
    """写入行列表到文件"""
    try:
        Path(filename).write_text('\n'.join(lines) + '\n', encoding='utf-8')
        return True
    except Exception as e:
        print(f"写入文件失败: {e}")
        return False

def backup_file(filename):
    """创建文件备份"""
    src = Path(filename)
    if src.exists():
        backup = src.with_suffix(src.suffix + '.bak')
        backup.write_bytes(src.read_bytes())
        return backup
    return None

总结

本文主要介绍python的文件读写操作，也是python入门的结束，关于数据结构、爬虫、以及面向对象等更高一层的需要继续学习，同时也需要掌握相关的算法库。

感想

当下经济形式的严峻，并不能阻止我们努力向前，人工智能不论是否当前泡沫化，与当初的互联网类似，是未来发展的趋势，也是不可阻挡的。我们只有拥抱它，一方面提升知识储备即根基，避免过度依赖ai失去了人本身的创造能力，一方面借助ai来达到更进一步的满足市场的需求。

资料关注

相关资料获取:
公众号：咚咚王

《Python编程：从入门到实践》
《利用Python进行数据分析》
《算法导论中文第三版》
《概率论与数理统计（第四版） (盛骤) 》
《程序员的数学》
《线性代数应该这样学第3版》
《微积分和数学分析引论》
《（西瓜书）周志华-机器学习》
《TensorFlow机器学习实战指南》
《Sklearn与TensorFlow机器学习实用指南》
《模式识别（第四版）》
《深度学习 deep learning》伊恩·古德费洛著花书
《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》
《深入浅出神经网络与深度学习+(迈克尔·尼尔森（Michael+Nielsen）》
《自然语言处理综论第2版》
《Natural-Language-Processing-with-PyTorch》
《计算机视觉-算法与应用(中文版)》
《Learning OpenCV 4》
《AIGC：智能创作时代》杜雨+&+张孜铭
《AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型》
《从零构建大语言模型（中文版）》
《实战AI大模型》
《AI 3.0》

posted on 2025-11-17 20:04 咚咚王者阅读(28) 评论(0) 收藏举报

刷新页面返回顶部