ddddocr: 对图片处理提升识别率

一,识别有误

dataurl:



图片如下:

image

识别结果:

$ python3 ocr1.py 
欢迎使用ddddocr,本项目专注带动行业内卷,个人博客:wenanzhe.com
训练数据支持来源于:http://146.56.204.113:19199/preview
爬虫框架feapder可快速一键接入,快速开启爬虫之旅:https://github.com/Boris-code/feapder
谷歌reCaptcha验证码 / hCaptcha验证码 / funCaptcha验证码商业级识别接口:https://yescaptcha.com/i/NSwk7i
识别结果: 00470

二,处理:

为了提高识别比率,对图片做一定的处理:转为灰度+去噪

代码:

import base64
from ddddocr import DdddOcr
import cv2
import numpy as np
from PIL import Image
import io
from PIL import Image, ImageFilter
from io import BytesIO


ocr = DdddOcr(det=False, ocr=True)

data_url = ""

def data_url_to_image(data_url):
    # 解析URL字符串
    mediatype, data = data_url.split(',',1)
    encoding = mediatype.split(';')[1] if ';' in  mediatype  else '' 

    # 解码数据
    if encoding =='base64':
        data = base64.b64decode(data)

    # 创建Image对象
    image = Image.open(BytesIO(data))

    return image

image = data_url_to_image(data_url)
image.save('x1.png')

# 打开图像并进行处理
image = Image.open('x1.png')
# 转换为灰度图像
image = image.convert('L')
# 去噪
image = image.filter(ImageFilter.MedianFilter())
# 保存处理后的图像
image.save('x1_opted.png')

with open('x1_opted.png', 'rb') as f:
    img_bytes = f.read()
    result = ocr.classification(img_bytes)
    print(f"识别结果:{result}")  # 处理后的

with open('x1.png', 'rb') as f:
    img_bytes = f.read()
    result = ocr.classification(img_bytes)
    print(f"识别结果:{result}")  # 原图的输出

结果 :

$ python3 ocr1.py 
欢迎使用ddddocr,本项目专注带动行业内卷,个人博客:wenanzhe.com
训练数据支持来源于:http://146.56.204.113:19199/preview
爬虫框架feapder可快速一键接入,快速开启爬虫之旅:https://github.com/Boris-code/feapder
谷歌reCaptcha验证码 / hCaptcha验证码 / funCaptcha验证码商业级识别接口:https://yescaptcha.com/i/NSwk7i
识别结果:004707
识别结果:00470

原图:

image

处理后图:

image

posted @ 2025-11-22 22:27  刘宏缔的架构森林  阅读(20)  评论(0)    收藏  举报