Ubuntu PDF OCR 工具—OCRmyPDF

简介

开源 OCR 工具，识别扫描版 PDF 使其可以搜索、复制等

OCR, Optical Character Recognition，光学字符识别，是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程

github: https://github.com/jbarlow83/OCRmyPDF

docs: https://ocrmypdf.readthedocs.io/en/latest/

安装

安装 ocymypdf 及依赖

sudo apt-get -y remove ocrmypdf # 本机未安装 ocrmypdf 旧版
sudo apt-get -y update
sudo apt-get -y install \
    ghostscript \
    icc-profiles-free \
    liblept5 \
    libxml2 \
    pngquant \
    python3-cffi \
    python3-distutils \
    python3-pkg-resources \
    python3-reportlab \
    qpdf \
    tesseract-ocr \
    zlib1g \
    unpaper
    
wget https://bootstrap.pypa.io/get-pip.py && python3 get-pip.py

export PATH=$HOME/.local/bin:$PATH
python3 -m pip install --user ocrmypdf

安装 JBIG2 encoder

git clone https://github.com/agl/jbig2enc
cd jbig2enc
./autogen.sh
./configure && make
[sudo] make install

遇到的问题

执行 ./autogen.sh

./autogen.sh: 行 45: aclocal：未找到命令
```
sudo apt-get install automake
```
./autogen.sh: 行 50: libtoolize：未找到命令 ./autogen.sh: 行 50: glibtoolize：未找到命令
```
sudo apt install libtool
```

执行./configure && make

Error! Leptonica not detected.
```
sudo apt install libleptonica-dev
```
https://github.com/tesseract-ocr/tesseract/issues/215#issuecomment-369339789
Error! zlib not detected.
```
sudo apt install zlib1g-dev
```

安装语言包

中文简体

sudo apt install tesseract-ocr-chi-sim

命令

ocrmypdf -l chi_sim --output-type pdf [source.pdf] [ocr.pdf]

ocrmypdf

工具命令
-l chi_sim

指定语言为中文简体
--output-type pdf

生成标准的 PDF 格式
source.pdf

需要进行处理的文档名
ocr.pdf

处理完生成的文档名

示例

ocrmypdf -l chi_sim --output-type pdf 正则表达式必知必会\(修订版\).pdf 正则表达式必知必会\(修订版\)-ocr.pdf --force-ocr

posted @ 2021-06-03 20:23 usmile 阅读(1591) 评论(0) 收藏举报

刷新页面返回顶部

你笑了

你的笑，是大海拥抱海岛的笑，是星星跳跃浪花的笑，是椰树遮掩椰果的笑。你笑着，使黑夜奔逃。

Ubuntu PDF OCR 工具—OCRmyPDF

简介

安装

安装 ocymypdf 及依赖

安装 JBIG2 encoder

遇到的问题

安装语言包

命令

公告

你笑了

你的笑，是大海拥抱海岛的笑，是星星跳跃浪花的笑，是椰树遮掩椰果的笑。 你笑着，使黑夜奔逃。

Ubuntu PDF OCR 工具—OCRmyPDF

简介

安装

安装 ocymypdf 及依赖

安装 JBIG2 encoder

遇到的问题

安装语言包

命令

公告

你的笑，是大海拥抱海岛的笑，是星星跳跃浪花的笑，是椰树遮掩椰果的笑。你笑着，使黑夜奔逃。