首页  :: 新随笔  :: 管理

pdf批量识别为文字的工具包

Posted on 2021-02-01 00:26  季枫  阅读(389)  评论(0编辑  收藏  举报

1、pdf阅读器adobe acrobat DC  v2019 008 20074

  可以识别pdf书中的文字(图片上选择区域右键选复制,软件会自动ocr)

  把pdf 每一页导出为图片

2、Tesseract-OCR 

  把图片识别为文本文件,google的开源项目

tesseract "F:\pdfTotxt\pdf\页面_023.jpg"  txt023 –l eng

  

智读 | 成都会领科技有限公司官网 | 智读App下载 | 每天听本书的博客 | |