PyMuPDF工具说明
PyMuPDF
工具代码:https://github.com/pymupdf/PyMuPDF
文档说明:https://pymupdf.readthedocs.io/en/latest/index.html
基于pymupdf的RAG代码:https://github.com/pymupdf/RAG
PyMuPDF的Textpage对象提供的extractDICT()和extractRAWDICT()用以获取页面中的所有文本和图片(内容、位置、属性),基本数据结构如下:

转载:https://blog.csdn.net/star1210644725/article/details/136365870
posted on 2024-09-03 13:32 Sanny.Liu-CV&&ML 阅读(73) 评论(0) 收藏 举报
浙公网安备 33010602011771号