Python tesseract-OCR文字识别

1，安装 tesseract工具，配置tesseract.exe的环境变量,

2, 安装 pytesseract

2，获取截图

3，可以通过Image的open或者cv2的imread打开图片，之后对图片进行对比度增强，降噪等处理，效果会好一些。

　对于只获取图片部分文字的，可以先对图片进行裁剪　　　

　　　　　　from PIL import Image　　　　　

　　　　　　img = Image.open("./data/cut/thor.jpg")

　　　　　　cut_picutre = img.crop((0, 0, 512, 128)) # (left, upper, right, lower)

　　　　　　cut_picutre .save("D:cut.jpg")

4，文字识别

　　A. pytesseract.image_to_string(Image.open(image_path), lang=Languages.ENG)

B. 直接使用tesseeract工具，cmd执行， "tesseract.exe image_path txt_path" image_path 为图片路径，txt_path为识别出的文字并保存为txt的路径

posted @ 2020-08-27 16:00 2020不在低调阅读(274) 评论(0) 收藏举报

刷新页面返回顶部

2020不在低调