ocrmypdf ocr你的PDF

官网

常见问题:

目录:

安装

Manjaro

  • 安装构建工具
sudo pacman -S base-devel
  • 使用AUR助手工具安装OCRmyPDF
# 安装yay
sudo pacman -S yay
# 使用yay自动构建ocrmypdf
yay -S ocrmypdf

MAC

  • 安装ocrmypdf
brew install ocrmypdf
# -----------------Manjaro-----------------
# 英文包(默认)
sudo pacman -S tesseract-data-eng

# 中文简体
sudo pacman -S tesseract-data-chi_sim

# -----------------Mac---------------------
# 中文简体到语言包github下载后放到
usr/local/Cellar/tesseract/ <版本> /share/tessdata
  • 安装有损转换图片工具(可选)
# -----------------Manjaro-----------------

# 用于压缩更小的PDF
sudo pacman -S img2pdf

# -----------------MAC---------------------
brew install img2pdf

用法

单一文件

# 文件目录中
ocrmypdf --force-ocr -d -l chi_sim ceshi1.pdf ceshi3.pdf
# 部份参数
# -d           修正倾斜
# -l chi_sim   指定语言
# --force-ocr  强制OCR解决某些错误

批量

# -----------------Manjaro-----------------
# 安装parallel多线程转换
sudo pacman -S parallel

# -----------------MAC---------------------
brew install parallel

# 同目录中
parallel --bar --tag -j 2 ocrmypdf --force-ocr -l chi_sim '{}' 'output/{}' ::: *.pdf
# 参数
# -j 2             最大前行数
# output           同目录里的输出文件夹名
# --bar            显示进度 通常比较慢才变化
# --tag            见官方说明
# --force-ocr      强制OCR解决某些错误
# -l chi_sim       中文语言包 
# 默认加添英文语言

参考

posted @ 2024-04-18 11:08  知之噵  阅读(517)  评论(0)    收藏  举报