tesseract识别图片文字

OCR识别图片文字

pytesseract免费开源项目完成识别

  1. pip install pytesseract 安装扩展包,只安装这个没有用

  2. tesseract-ocr.exe 完成识别工作,下载并安装(过程中,需要点击选择中文包),记录其所在路径(应该与以下示例中近似)

    1. 下载tesseract-ocr, 链接:https://pan.baidu.com/s/1IBLgMicVK3Dk8VUO44sB3g 提取码:ghnb
  3. 示例代码:

    from PIL import Image
    import pytesseract
    
    # 配置tesseract.exe路径,否则会报错
    pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
    
    img = Image.open(r'03.jpg')
    ret = pytesseract.image_to_string(img, lang='chi_sim')  # lang='chi_sim' 对识别中文起作用
    print(ret)
    
  4. 报错示例:

    1. pytesseract.pytesseract.TesseractError: (1, 'Error opening data file C:\\Program Files\\Tesseract-OCR\\/tessdata/chi_sim
    	修正方法:根据报错提示,缺少中文数据包。将中文数据包chi_sim.traineddata(百度云中已有),添加进C:\Program Files\Tesseract-OCR\tessdata中即可。
    
posted @ 2021-01-02 23:10  疯狂列表推导式  阅读(128)  评论(0编辑  收藏  举报