摘要: 在构建AI本地知识库时,我们不可避免地需要对PDF文件进行处理。PDF文件大致分为两种:扫描的图片文件和非图片文件。对于非图片类型的PDF,可以直接提取文本并进行向量化处理;但对于图片类型的PDF(如扫描件),处理起来就复杂得多。 问题背景 图片类型的PDF文件通常存在以下问题: 扫描件可能不是一页 阅读全文
posted @ 2025-02-15 11:25 鹄鹄 阅读(618) 评论(0) 推荐(0)