PyMuPDF 就有mupdf 的python pdf 包
pymupdf 是基于mupdf 的python pdf 处理包,相比其他python pdf 包提供了不少特性
包含的特性
- 支持的pdf 操作模式比较多
- 支持较多的文档类型(但是部分是需要收费的)
- 高性能
- 对于面向llm 应用开发处理支持比较好(基于pymupdf4llm 扩展)
说明
对于面向文档的rag,以及ai agent pymupdf 是一个很不错的选择,提供了方便的markdown 生成,很值得试用下
参考资料
https://pymupdf.readthedocs.io/en/latest/
https://pymupdf.readthedocs.io/en/latest/pymupdf4llm/index.html