python安装terseract，进行图像识别

Tesseract简介及环境搭建

简介

Tesseract的OCR引擎最先由HP实验室于1985年开始研发，至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而，HP不久便决定放弃OCR业务，Tesseract也从此尘封。数年以后，HP意识到，与其将Tesseract束之高阁，不如贡献给开源软件业，让其重焕新生。在2005年，Tesseract由美国内华达州信息技术研究所获得，并委托Google对其进行改进、优化工作。

Tesseract目前已作为开源项目发布在Google Project，它与Leptonica图片处理库结合，可以读取各种格式的图像并将它们转化成超过60种语言的文本，我们还可以不断训练自己的库，使图像转换文本的能力不断增强。如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎。

（摘自--链接：https://www.jianshu.com/p/f0f05ff2dc2e）

安装

我们需要安装图像识别引擎terseract-orc以及python调用terseract的terseract库

首先安装orc，安装连接https://digi.bib.uni-mannheim.de/tesseract/

最好选取不带有dev的，dev代表他还不是稳定的

，下载之后双击运行，选择自己要下载的语言库，选取chinese（simple）应该就够了，默认为English。

下载完之后可以选择将其加入到path环境中（添加示例：https://blog.csdn.net/showgea/article/details/82656515），

也可以不添加使用以下代码替换：

# 选取自己的安装路径
pytesseract.pytesseract.tesseract_cmd = 'F:\\tesseract\\Tesseract-OCR\\tesseract.exe'

然后安装python库，直接用pip下载就可以。

pip install pytesseract

实例

图像：

代码

import pytesseract
from PIL import Image
 
# 选取自己的安装路径
pytesseract.pytesseract.tesseract_cmd = 'F:\\tesseract\\Tesseract-OCR\\tesseract.exe'
# 图像地址
text = pytesseract.image_to_string(Image.open(r'D:\pic\图像识别.png'))
 
# 打印结果
print(text)

结果为

识别度还是很高的。

posted @ 2020-04-07 15:26 masuo 阅读(458) 评论(0) 收藏举报

刷新页面返回顶部

masuo

python安装terseract，进行图像识别

公告