1、pdf阅读器adobe acrobat DC v2019 008 20074
可以识别pdf书中的文字(图片上选择区域右键选复制,软件会自动ocr)
把pdf 每一页导出为图片
2、Tesseract-OCR
把图片识别为文本文件,google的开源项目
tesseract "F:\pdfTotxt\pdf\页面_023.jpg" txt023 –l eng
博客园 © 2004-2025 浙公网安备 33010602011771号 浙ICP备2021040463号-3