2025 年 2月 15 日随笔档案 - 鹄鹄

2025年2月15日

摘要：在构建AI本地知识库时，我们不可避免地需要对PDF文件进行处理。PDF文件大致分为两种：扫描的图片文件和非图片文件。对于非图片类型的PDF，可以直接提取文本并进行向量化处理；但对于图片类型的PDF（如扫描件），处理起来就复杂得多。问题背景图片类型的PDF文件通常存在以下问题：扫描件可能不是一页阅读全文

posted @ 2025-02-15 11:25 鹄鹄阅读(744) 评论(0) 推荐(0)

向阳

.net b1 sap byd