Python tesseract-OCR文字识别

1,安装 tesseract工具,配置tesseract.exe的环境变量,

2,  安装 pytesseract

2,获取截图

3,可以通过Image的open或者cv2的imread打开图片,之后对图片进行对比度增强,降噪等处理,效果会好一些。

   对于只获取图片部分文字的,可以先对图片进行裁剪   

      from PIL import Image     

      img = Image.open("./data/cut/thor.jpg")

      cut_picutre = img.crop((0, 0, 512, 128)) # (left, upper, right, lower)

      cut_picutre .save("D:cut.jpg")

4文字识别

  A.  pytesseract.image_to_string(Image.open(image_path), lang=Languages.ENG)

       B. 直接使用tesseeract工具,cmd执行, "tesseract.exe image_path txt_path"   image_path 为图片路径,txt_path为识别出的文字并保存为txt的路径

posted @ 2020-08-27 16:00  2020不在低调  阅读(259)  评论(0)    收藏  举报