470-批量复制pdf中的文本内容
程序介绍
批量复制指定文件夹A下每个pdf中的文本到txt文档中,复制时每个pdf页面间使用 ≦ 1 ≧ ≦ 2 ≧ 这样的序列分割标注页面,使得每个pdf文件复制文本内容后在txt文档中能够清晰明了。
支持子文件夹穿透,程序会自动创建以pdf文件名命名的txt文档,将pdf文本复制后写入txt文档中,txt文档最后会保存在pdf所在文件夹下,与pdf文档放在一起。
注意事项
使用过程中可能会出现如下情况
1、pdf页面为纯图片页面,这种情况是无法复制文本的,需要先将页面中的图片进行OCR识别处理
2、pdf页面为文本页面,但是复制后的文本出现一个字一个字的情况(这种情况比较少见),这种情况也需要先使用OCR进行预处理添加搜索层,再次复制就不会出现一个字一个字的情况了,还要一种办法就是将pdf另存为pdfA可归档的格式
操作方法
1、如果需要复制pdf文档中的文本(pdf文档中的文本为文本类型时,非图片类型)适用程序2进行复制
2、如果无法正确复制文本,可使用程序1对pdf文件进行OCR处理
适用系统环境
win7及以上64位操作系统
本文来自博客园,作者:softbangong,转载请注明原文链接:https://www.cnblogs.com/softbangong/articles/18880464