python pdf 操作
「pdfplumber:」
pdfplumber库按页处理 pdf ,获取页面文字,提取表格等操作。
学习文档:https://github.com/jsvine/pdfplumber
「pypdf2:」
PyPDF2 是一个纯 Python PDF 库,可以读取文档信息(标题,作者等)、写入、分割、合并PDF文档,它还可以对pdf文档进行添加水印、加密解密等。
官方文档:https://pythonhosted.org/PyPDF2
import pdfplumber
filename = ""
# 提取pdf表格
with pdfplumber.open(filename) as pdf:
# page01 = pdf.pages[0] #指定页码
for page in pdf.pages:
text = page.extract_text()#提取文本
table1 = page.extract_table()#提取单个表格
table2 = page.extract_tables()#提取多个表格
print(text,table1,table2)

浙公网安备 33010602011771号