tesseract识别图片文字
OCR识别图片文字
pytesseract免费开源项目完成识别
- 
pip install pytesseract 安装扩展包,只安装这个没有用 
- 
tesseract-ocr.exe 完成识别工作,下载并安装(过程中,需要点击选择中文包),记录其所在路径(应该与以下示例中近似) - 下载tesseract-ocr, 链接:https://pan.baidu.com/s/1IBLgMicVK3Dk8VUO44sB3g 提取码:ghnb
 
- 
示例代码: from PIL import Image import pytesseract # 配置tesseract.exe路径,否则会报错 pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe" img = Image.open(r'03.jpg') ret = pytesseract.image_to_string(img, lang='chi_sim') # lang='chi_sim' 对识别中文起作用 print(ret)
- 
报错示例: 1. pytesseract.pytesseract.TesseractError: (1, 'Error opening data file C:\\Program Files\\Tesseract-OCR\\/tessdata/chi_sim 修正方法:根据报错提示,缺少中文数据包。将中文数据包chi_sim.traineddata(百度云中已有),添加进C:\Program Files\Tesseract-OCR\tessdata中即可。
 
                    
                     
                    
                 
                    
                
 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号