Tesseract OCR下载安装保姆级教程(附官网安装包,非常详细)
Tesseract OCR 是一款开源、免费的文字识别工具,它能够把图片上的文字识别出来,并整理成可复制、编辑的文本。
Tesseract OCR 可以识别多种格式的图片,包括 PNG、JPEG、TIFF、GIF、BMP、PNM 等。相应地,它可以将识别出的文本整理到 Txt、PDF、HTML 等格式的文件里。
Tesseract OCR 能够识别 100+ 多种语言的文字,包括常用的英文和简体中文。我们提供的图片清晰度越好,它识别的准确度越高。
和 Tesseract OCR 同赛道的工具有很多,比如主流的 ABBYY FineReader 、EasyOCR、百度智能云 OCR 等。相比之下,Tesseract OCR 的优势是完全免费,离线状态下也可以使用,支持跨平台(Windows、Linux 和 Mac OS),经过训练可以完成更负责的识别任务。
注意,Tesseract OCR 是不带图形界面的,只能编写命令或者程序操控它,这一点对新手不太友好。不过,普通用户只需要记住几条最常用的命令,也足够用了。
下载Tesseract OCR
Tesseract OCR 官方发布了 3 种安装包:https://pan.quark.cn/s/3d06ec85ef6e- tesseract-ocr-w64-setup-5.5.0.20241111.exe:适用于 Windows 平台的安装包;
- tesseract-5.5.0.zip 和 tesseract-5.5.0.tar.gz 都是源代码压缩包,前者适用于 Windows,后者适用于 Linux 和 Mac OS。
安装Tesseract OCR
笔者的电脑系统是 Windows x64 ,所以接下来以 Windows 为例,手把手教大家在 Windows 平台上安装 Tesseract OCR。
1) 下载得到 tesseract-ocr-w64-setup-5.5.0.20241111.exe,双击运行,保持默认的 English 语言,点击“OK”:









使用Tesseract OCR
普通用户经常用 Tesseract OCR 识别图片上的文字,记住几个常用的命令即可。
1) 配置环境变量,步骤如下:
① 按照下图所示,打开电脑的设置窗口:





输出了 Tesseract OCR 的版本信息,表示安装成功了,接下来就可以使用 Tesseract OCR 识别图片了。
3) 接下来,我们以下面的图片为例,教大家编写 cmd 命令来操控 Tesseract OCR:

其中 eng 表示识别英文,chi_sim 表示是被简体中文。大家要自己修改图片的存储位置,其它不用改,执行结果为:tesseract D:\demo.gif - -l eng+chi_sim

可以看到,Tesseract OCR 识别出了图片中的所有字母和汉字。
通过执行如下命令,可以查看 Tesseract OCR 当前支持识别的语言:
tesseract --list-langs List of available languages in

tesseract D:\demo.gif D:\temp -l eng+chi_sim



浙公网安备 33010602011771号