基于Python37配置图片文字识别

 

以管理员权限打开cmd控制台。

1.如何安装PIL

输入下面命令:pip install Pillow

参考:https://www.cnblogs.com/mrgavin/p/8177841.html

2.安装pytesseract

输入下面命令:pip install pytesseract

详细见下图:

3.安装文字识别包tesseract-ocr(https://www.cnblogs.com/hupeng1234/p/7136442.html

tesseract识别算法开源代码见https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows

下载如下链接中的安装exe文件进行安装:

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0-rc3.20181014.exe

安装路径如下:C:\Program Files (x86)\Tesseract-OCR

注意:请将所有可以勾选的都勾选上

4.修改Python37中的pytesseract.py配置。

打开文件C:\Program Files\Python37\Lib\site-packages\pytesseract\pytesseract.py,将下面语句找到

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = 'tesseract'

替换成

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
#tesseract_cmd = 'tesseract'
tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'

 5.测试一下安装是否成功。

在D盘底下新建一个文件夹tesseractTest,并在该文件夹底下新建一个文件testTesseract.py, 内容如下:

1 # _*_ coding: utf-8 _*_
2 from PIL import Image
3 import pytesseract
4 
5 aaa = pytesseract.image_to_string(Image.open('aaa.png'), lang='chi_sim')
6 print(aaa)

新开一个cmd终端,执行如下语句:

python testTesseract.py

可以看到下图中的输出:

其中aaa.png和bbb.png内容如下:

aaa.png

bbb.png

posted on 2018-10-21 21:22  eustoma  阅读(499)  评论(0编辑  收藏  举报

导航