验证码识别

1:引入pytesseract
2:下载安装Tesseract-OCR 引擎
链接:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.01dev-20170510.exe
3:需要配置环境变量(测试发现,不配置环境变量也可以出结果)
变量名:TESSDATA_PREFIX
变量值:D:\Tesseract-OCR\Tesseract-OCR(这是基于我安装的Tesseract-OCR 引擎地址写的)
4:到python安装文件下找到 site-packages/pytesseract/pytesseract.py 修改里面内容:
tesseract_cmd = 'D:/Tesseract-OCR/Tesseract-OCR/tesseract.exe'
这个EXE文件也要要改成你自己的安装目录
5:如果你不想配置这些环境变量的话,你可以在python代码文件里面写上这两句代码
pytesseract.pytesseract.tesseract_cmd = 'D:/Tesseract-OCR/Tesseract-OCR/tesseract.exe'
tessdata_dir_config = '--tessdata-dir "D:/Tesseract-OCR/Tesseract-OCR/tessdata"'
(当然了,这地址也是基于你自己的安装目录)
6:找个图片进行识别测试
import pytesseract
from PIL import Image
img = Image.open('da4554c01a8c0563bf7fc106c3934722s.png')
# print(img)
#config参数:任何其它配置为字符串(官方文档是这样解释的)
(在自如中的价格雪碧图是需要加这个参数才可以把读出字符串的)
s = pytesseract.image_to_string(img,config='--psm 6')
print(s)

 

 

posted @ 2018-11-21 01:14  王天赏  阅读(269)  评论(0编辑  收藏  举报