随笔档案「2022年2月18日」：python如何提取pdf文件图片中的文字？ ... - eliwang

2022年2月18日

摘要：思路：利用 pymupdf+pytesseract 通过pymupdf提取pdf文件中的图片，并写入到本地，然后利用tesseract-ocr去处理 1、安装pymupdf pip install pymupdf 虽然安装的库为pymupdf，实际上调用的包名为fitz 2、示例：提取pdf文件图片阅读全文

posted @ 2022-02-18 18:01 eliwang 阅读(3117) 评论(0) 推荐(0)

eliwang

学无止境的小渣渣

公告