用OCR技术识别验证码---tesseract


今天成功编译了Tesseract OCR 1.02 ,就是最近Google支持的那个OCR。原先是HP写的,现在Open source了。支持英文字母和数字。据说辨识程度是世界排名第三的。http://sourceforge.net/projects/tesseract-ocr

编译:
察看dsw文件,发现是VC6的工程,用VC6打开,如果用VS2003或者vs2005编译,会有很多编译错误。开始编译,有很多错误,然后Clean掉,Rebuild ALL,出现681 warning后成功编译。

发布:
bin.dbg下面是编译好的文件,然后把tessdata文件夹拷贝到bin.dbg下,需要测试的图像文件拷贝到此目录。文件必须是未压缩的tif位图格式(bit-map)。而且只能有一个bit的颜色。也就是非黑既白,而不仅仅是灰度。在photoshop里面可以简单地转换。彩色的要先转成灰度(grey scale)才能转成位图(bitmap)


测试:
执行例子图像文件tesseract.exe phototest.tif abc batch
输出结果在abc.txt,识别率竟然是100%。当然你自己做的图片就不一定有这么高。

posted on 2006-10-31 10:32 网际大鱼 阅读(4057) 评论(6)  编辑 收藏 网摘

评论

#1楼 2006-11-06 18:03 ruby[未注册用户]

我最近一直在看这个程序,
请问你研究过程序的算法吗?
希望能与你交流chenghao@hanwang.com.cn
  回复  引用    

#2楼 2006-11-20 15:45 阿佛[未注册用户]

老九也搞模式识别了?有阵子我想过去破解网站验证码,然后找相关的东西,感觉俄罗斯人做的有款软件效果不错,识别率比较高,它自带的有二值化工具,据说是业界排名第一的,可是是商业化产品,没有源码,想嵌在程序里也比较难   回复  引用    

#3楼 2007-01-08 15:24 好空[未注册用户]

我也在研究这个程序了~真麻烦.
有空一起讨论下吧,我的MSN:haokongdashi@hotmail.com
  回复  引用    

#4楼 2008-03-12 17:23 SEO[未注册用户]

不错,蛮有用的   回复  引用    

#5楼 2008-03-19 20:34 力大无比[未注册用户]

梦寐以求的技术   回复  引用    

#6楼 2008-04-08 06:03 蓝奇高级验证码识别引擎QQ:631753663[未注册用户]

出售蓝奇高级验证码识别引擎,可准确识别新浪动网淘宝CSDN等多种复杂验证码。

输出为一个标准DLL,可供VB,VC,Delphi,C#.NET,VB.NET,模拟精灵,按键精灵等多平台调用,调用方法简单,几行代码即可完成。独具特色的边缘检测字符分离、旋转倾斜纠正和通用字符匹配算法(无论字体和大小), 使得该引擎对于像新浪、动网、淘宝、CSDN等多种验证码均有不错的识别率,是一款效果较为理想的验证码识别引擎。附详细的调用实例和代码注释等相关技术文档。

官方网站 - http://***/yzm_advocr
识别效果怎么样一试就知道 - DEMO下载 http://***/yzm_advocr/advocr.rar
  回复  引用    




发表评论

昵称: [登录] [注册]

主页:

邮箱:(仅博主可见)

评论内容:

  登录  注册

[使用Ctrl+Enter键快速提交评论]

0 545255




相关文章:

相关链接:

导航

公告

网名:机器人小PQQ:792892125机器人小P

统计

与我联系

搜索

 

常用链接

留言簿

随笔分类

随笔档案

文章分类

文章档案

朋友博客

积分与排名

最新评论

评论排行榜