pdf批量识别为文字的工具包

Posted on 2021-02-01 00:26 季枫阅读(433) 评论(0) 收藏举报

1、pdf阅读器adobe acrobat DC v2019 008 20074

　　可以识别pdf书中的文字(图片上选择区域右键选复制，软件会自动ocr)

　　把pdf 每一页导出为图片

2、Tesseract-OCR

　　把图片识别为文本文件，google的开源项目

tesseract "F:\pdfTotxt\pdf\页面_023.jpg"  txt023 –l eng

刷新页面返回顶部