tesseract基本使用

概述

Tesseract，一款由惠普实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别，文本识别）引擎，用于识别图片中的文字并将其转换为可编辑的文本。Tesseract支持开箱即用，能够将印刷体文字图像转换成可编辑文本，并支持多种语言，可在许多平台上都可使用，包括Windows、Mac OS和Linux。Tesseract可以处理各种图像文件格式，如JPEG、PNG、TIFF等，是目前公认最优秀、最精确的开源OCR引擎，目前最新版本为5.x版本。

Tesseract的主要功能是识别图像中的文字，并将其转换成机器可读的文本内容。它采用了一系列图像处理、特征提取和机器学习技术来实现文字识别的过程。Tesseract内部采用LSTM模型算法作为基础的，使用训练好的模型来识别字符，并通过上下文和语言模型来提高识别准确性。

Github：https://github.com/tesseract-ocr/tesseract
文档：https://github.com/tesseract-ocr/tessdoc
语言包：https://github.com/tesseract-ocr/tessdata

安装

安装文档：https://github.com/tesseract-ocr/tessdoc/blob/main/Installation.md

下载地址：https://github.com/UB-Mannheim/tesseract/releases

把下载回来的安装包点击进入安装流程，以下选择安装语言，默认选择English，点击“ok”：

点击Next下一步即可：

同意安装协议：

默认给系统所有用户安装，点击下一步：

选择安装组件，点击Next。

设置安装目录，这里如果部分人的电脑有权限限制，可以不要安装到系统盘（C盘），自己换一个目录（路径不要出现中文或其他特殊符号）即可：

是否在开始菜单中显示，一般不显示么，所以把Do Not create shortcuts勾上，点击Install即可。

注意，安装过程中会因为前面勾选下载语言包而弹出请求错误的提示框，这是因为你没有开代理缺选择了下载语言包的缘故：

安装完成，点击Next

点击完成退出安装流程：

配置环境变量

鼠标右键点击此电脑，选择属性，按下图设置环境变量：

点击新建环境变量，把刚才上面设置的tesseract安装目录写入最下面：

接着把打开的环境变量所有窗口点击“确定”进行关闭，再新打开一个CMD终端，输入命令tesseract -v，效果如下则表示安装成功：

语言包下载

从https://github.com/tesseract-ocr/tessdata所在页面中载需要的的语言包（用不上的没必要下载），如下图，红框内为中文简体语言包，下载后将该包直接放在程序安装目录的tessdata文件夹里面即可。

使用 tesseract --list-langs命令可查看当前软件支持的语言。

使用

安装依赖模块：

pip install pytesseract pillow

代码：

import pytesseract
from PIL import Image

# 图片路径
file = r"2.png"

# 打开图片
image = Image.open(file)
# 灰度化处理，提高文本识别率
img = image.convert('L')
# 二值化处理，提高文本识别率
threshold = 180 # 自定义灰度界限
table = [0 if i < threshold else 1 for i in range(256)]
img.point(table, '1')
# img.save('22.png')  # 自己决定是否保存二值化的图片
# 解析图片，lang='chi_sim'表示识别简体中文，默认为English
content = pytesseract.image_to_string(img, lang='chi_sim')
print(content)

posted @ 2025-04-15 16:30 凫弥阅读(965) 评论(0) 收藏举报

刷新页面返回顶部

fuminer

tesseract基本使用

概述

安装

配置环境变量

语言包下载

使用

公告