Python tesseract-OCR文字识别
1,安装 tesseract工具,配置tesseract.exe的环境变量,
2, 安装 pytesseract
2,获取截图
3,可以通过Image的open或者cv2的imread打开图片,之后对图片进行对比度增强,降噪等处理,效果会好一些。
对于只获取图片部分文字的,可以先对图片进行裁剪
from PIL import Image
img = Image.open("./data/cut/thor.jpg")
cut_picutre = img.crop((0, 0, 512, 128)) # (left, upper, right, lower)
cut_picutre .save("D:cut.jpg")
4,文字识别
A. pytesseract.image_to_string(Image.open(image_path), lang=Languages.ENG)
B. 直接使用tesseeract工具,cmd执行, "tesseract.exe image_path txt_path" image_path 为图片路径,txt_path为识别出的文字并保存为txt的路径

浙公网安备 33010602011771号