470-批量复制pdf中的文本内容

程序介绍

批量复制指定文件夹A下每个pdf中的文本到txt文档中,复制时每个pdf页面间使用 ≦ 1 ≧   ≦ 2 ≧  这样的序列分割标注页面,使得每个pdf文件复制文本内容后在txt文档中能够清晰明了。

 

支持子文件夹穿透,程序会自动创建以pdf文件名命名的txt文档,将pdf文本复制后写入txt文档中,txt文档最后会保存在pdf所在文件夹下,与pdf文档放在一起。

注意事项

使用过程中可能会出现如下情况

1、pdf页面为纯图片页面,这种情况是无法复制文本的,需要先将页面中的图片进行OCR识别处理

2、pdf页面为文本页面,但是复制后的文本出现一个字一个字的情况(这种情况比较少见),这种情况也需要先使用OCR进行预处理添加搜索层,再次复制就不会出现一个字一个字的情况了,还要一种办法就是将pdf另存为pdfA可归档的格式

操作方法

1、如果需要复制pdf文档中的文本(pdf文档中的文本为文本类型时,非图片类型)适用程序2进行复制

2、如果无法正确复制文本,可使用程序1对pdf文件进行OCR处理

适用系统环境

win7及以上64位操作系统

posted @ 2025-05-16 18:44  softbangong  阅读(9)  评论(0)    收藏  举报