用Rust 结合 Tesseract OCR 识别验证码

环境准备
1.1 安装 Rust

Rust 可通过 Rust 官方网站
安装，或使用以下命令：
更多内容访问ttocr.com或联系1436423940
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

安装完成后，验证 Rust 版本：

rustc --version

1.2 安装 Tesseract OCR
Linux (Ubuntu)
sudo apt update
sudo apt install tesseract-ocr libtesseract-dev

macOS (Homebrew)
brew install tesseract

Windows

从 Tesseract GitHub
下载并安装。

验证 Tesseract 是否安装成功：

tesseract --version

1.3 创建 Rust 项目
cargo new rust_ocr
cd rust_ocr

在 Cargo.toml 添加 tesseract 和 image 依赖：

[dependencies]
tesseract = "0.17.0"
image = "0.24.6"

代码实现
2.1 读取 & 处理图像

Rust 提供 image 库用于图像处理，我们对验证码进行灰度化和二值化处理，提高 OCR 识别率。

创建 src/main.rs，编写以下代码：

use std::fs::File;
use std::path::Path;
use image::{DynamicImage, GrayImage, GenericImageView, Luma, open};
use tesseract::Tesseract;

fn preprocess_image(image_path: &str) -> GrayImage {
let img = open(image_path).expect("无法打开图像");

// 转换为灰度图像
let gray_img = img.to_luma8();

// 二值化处理（设定阈值）
let threshold = 128;
let binary_img = gray_img.map(|p| {
    if p[0] > threshold { Luma([255]) } else { Luma([0]) }
});

binary_img

}

fn save_processed_image(image: &GrayImage, output_path: &str) {
image.save(output_path).expect("无法保存处理后的图片");
}

fn recognize_captcha(image_path: &str) {
let processed_img = preprocess_image(image_path);

let output_path = "processed_captcha.png";
save_processed_image(&processed_img, output_path);

// OCR 识别
let text = Tesseract::new(None, "eng")
    .expect("无法初始化 Tesseract")
    .set_image(output_path)
    .recognize()
    .expect("OCR 识别失败");

println!("识别出的验证码: {}", text);

}

fn main() {
let image_path = "captcha.png";
recognize_captcha(image_path);
}

代码解析
3.1 图像预处理

灰度化：

let gray_img = img.to_luma8();

二值化：

let threshold = 128;
let binary_img = gray_img.map(|p| {
if p[0] > threshold { Luma([255]) } else { Luma([0]) }
});

保存处理后的图像：

image.save(output_path).expect("无法保存处理后的图片");

3.2 OCR 解析

初始化 Tesseract：

let text = Tesseract::new(None, "eng")

设置图像路径并识别：

.set_image(output_path)
.recognize()

运行程序

确保 captcha.png 存在于项目目录下，然后编译并运行：

cargo run

示例输出：

识别出的验证码: X7FQ8

提高 OCR 识别准确率
5.1 设定 Tesseract PSM 模式

对于验证码推荐 PSM 6（假设单行文本）：

.set_variable("tessedit_pageseg_mode", "6")

5.2 设定字符白名单

如果验证码只包含数字和大写字母：

.set_variable("tessedit_char_whitelist", "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ")

5.3 进一步图像优化

可以尝试：

去噪点（滤波处理）

字符分割（去除粘连字符）

其他 OCR 方案

如果 Tesseract 识别率不够，可以使用 Leptonica 结合深度学习：

use leptess::LepTess;

let mut ocr = LepTess::new(None, "eng").unwrap();
ocr.set_image("captcha.png");
let text = ocr.get_utf8_text().unwrap();
println!("识别出的验证码: {}", text);

posted @ 2025-09-03 22:51 ttocr、com 阅读(14) 评论(0) 收藏举报

刷新页面返回顶部

用Rust 结合 Tesseract OCR 识别验证码

公告