python安装terseract,进行图像识别

Tesseract简介及环境搭建

简介

Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生。在2005年,Tesseract由美国内华达州信息技术研究所获得,并委托Google对其进行改进、优化工作。

Tesseract目前已作为开源项目发布在Google Project,它与Leptonica图片处理库结合,可以读取各种格式的图像并将它们转化成超过60种语言的文本,我们还可以不断训练自己的库,使图像转换文本的能力不断增强。如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。


(摘自--链接:https://www.jianshu.com/p/f0f05ff2dc2e)

安装

我们需要安装图像识别引擎terseract-orc以及python调用terseract的terseract库

首先安装orc,安装连接https://digi.bib.uni-mannheim.de/tesseract/

最好选取不带有dev的,dev代表他还不是稳定的

 

 

 

 

 ,下载之后双击运行,选择自己要下载的语言库,选取chinese(simple)应该就够了,默认为English。

下载完之后可以选择将其加入到path环境中(添加示例:https://blog.csdn.net/showgea/article/details/82656515),

也可以不添加使用以下代码替换:

# 选取自己的安装路径
pytesseract.pytesseract.tesseract_cmd = 'F:\\tesseract\\Tesseract-OCR\\tesseract.exe'

 

然后安装python库,直接用pip下载就可以。

pip install pytesseract

 

实例

图像:

 

代码

import pytesseract
from PIL import Image
 
# 选取自己的安装路径
pytesseract.pytesseract.tesseract_cmd = 'F:\\tesseract\\Tesseract-OCR\\tesseract.exe'
# 图像地址
text = pytesseract.image_to_string(Image.open(r'D:\pic\图像识别.png'))
 
# 打印结果
print(text)

 

结果为

 

识别度还是很高的。

 

posted @ 2020-04-07 15:26  masuo  阅读(407)  评论(0编辑  收藏  举报