python pdf 操作

「pdfplumber:」

pdfplumber库按页处理 pdf ,获取页面文字,提取表格等操作。

学习文档:

「pypdf2:」

PyPDF2 是一个纯 Python PDF 库,可以读取文档信息(标题,作者等)、写入、分割、合并PDF文档,它还可以对pdf文档进行添加水印、加密解密等。

官方文档:

 

import pdfplumber
filename = ""
# 提取pdf表格
with pdfplumber.open(filename) as pdf:
# page01 = pdf.pages[0] #指定页码
for page in pdf.pages:
text = page.extract_text()#提取文本
table1 = page.extract_table()#提取单个表格
table2 = page.extract_tables()#提取多个表格
print(text,table1,table2)

来源:Python操作PDF全总结|pdfplumber&PyPDF2 - 知乎 (zhihu.com)

posted @ 2022-06-26 18:48  记录——去繁就简  阅读(110)  评论(0)    收藏  举报