官网
常见问题:
目录:
安装
Manjaro
sudo pacman -S base-devel
# 安装yay
sudo pacman -S yay
# 使用yay自动构建ocrmypdf
yay -S ocrmypdf
MAC
brew install ocrmypdf
# -----------------Manjaro-----------------
# 英文包(默认)
sudo pacman -S tesseract-data-eng
# 中文简体
sudo pacman -S tesseract-data-chi_sim
# -----------------Mac---------------------
# 中文简体到语言包github下载后放到
usr/local/Cellar/tesseract/ <版本> /share/tessdata
# -----------------Manjaro-----------------
# 用于压缩更小的PDF
sudo pacman -S img2pdf
# -----------------MAC---------------------
brew install img2pdf
用法
单一文件
# 文件目录中
ocrmypdf --force-ocr -d -l chi_sim ceshi1.pdf ceshi3.pdf
# 部份参数
# -d 修正倾斜
# -l chi_sim 指定语言
# --force-ocr 强制OCR解决某些错误
批量
# -----------------Manjaro-----------------
# 安装parallel多线程转换
sudo pacman -S parallel
# -----------------MAC---------------------
brew install parallel
# 同目录中
parallel --bar --tag -j 2 ocrmypdf --force-ocr -l chi_sim '{}' 'output/{}' ::: *.pdf
# 参数
# -j 2 最大前行数
# output 同目录里的输出文件夹名
# --bar 显示进度 通常比较慢才变化
# --tag 见官方说明
# --force-ocr 强制OCR解决某些错误
# -l chi_sim 中文语言包
# 默认加添英文语言
参考