Tesseract-ocr的安装
站长原创,版权所有ITEEDU,2011-07-04
在此专门地讲解linxu平台下的具体安装过程。
1.安装前必备的包
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install automake
wget http://www.leptonica.org/source/leptonlib-1.67.tar.gz
tar -zxvf leptonlib-1.67.tar.gz
cd leptonlib-1.67
./configure
make
make install
注意:在configure的时候可以选择最终的安装路径,比如安装在/home/administrator/tesseract-ocr目录下边:
./configure --prefix=//home/administrator/tesseract-ocr
也可以先在互联网上将原包下载下来,在解压缩,再安装。
2.安装tesseract-ocr
wget http://tesseract-ocr.googlecode.com/files/tesseract-3.00.tar.gz
tar -zxvf tesseract-3.00.tar.gz
cd tesseract-3.00
./configure
make
make install
注意:
./configure --prefix=/home/administrator/tesseract-ocr
与leptonlib-1.67安装目录相同。
3.安装语言包
(1)英文支持包
cd /home/administrator/tesseract-ocr/share/tessdata
sudo wget http://tesseract-ocr.googlecode.com/files/eng.traineddata.gz
sudo gunzip eng.traineddata.gz
(2)中文支持包
cd /home/administrator/tesseract-ocr/share/tessdata
sudo wget http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz
sudo gunzip chi_sim.traineddata.gz
4.配置环境变量
编写一个ocr.sh文件
#!bin/bash
export PAHT=/home/administrator/tesseract-ocr/bin:$PATH
export LD_LIBRARY_PATH=/home/administrator/tesseract-ocr/lib:$LD_LIBRARY_PATH
5.测试一下
在终端输入命令:
tesseract picture.tif test -l chi_sim
含义:处理图片picture.tif上的文字信息,并且加载的是汉语包,处理的结果存放在test.txt文件中。
如果在测试时,出现问题,需要再次配置一下子ldconfig。
sudo gedit /etc/ld.so.conf
在其中添加:
/home/administrator/tesseract-ocr/lib
然后sudo ldconfig,应该就没问题了,呵呵……
浙公网安备 33010602011771号