摘要: # 指定要处理的文件名 input_filename = '中文目录.txt' output_filename = 'output_3.txt' # 定义要排除的字符列表 exclude_characters = ['参考文献', '习题', '进一步阅读'] # 打开原始文件和新文件 with o 阅读全文
posted @ 2024-11-17 20:57 redufa 阅读(88) 评论(0) 推荐(0)
摘要: import fitz # PyMuPDF import pandas as pd import os # 获取当前文件夹中所有的PDF文件 pdf_files = [f for f in os.listdir('.') if f.endswith('.pdf')] # 提取目录信息的函数 def 阅读全文
posted @ 2024-11-17 14:34 redufa 阅读(118) 评论(0) 推荐(0)