网际大鱼-www.xwin32.cn

MSN: polugen@msn.com
http://www.xwin32.cn
http://www.dot9.cn
http://www.dbclick.com.cn
向IT相关的一切技术冲锋

 

用OCR技术识别验证码---tesseract


今天成功编译了Tesseract OCR 1.02 ,就是最近Google支持的那个OCR。原先是HP写的,现在Open source了。支持英文字母和数字。据说辨识程度是世界排名第三的。http://sourceforge.net/projects/tesseract-ocr

编译:
察看dsw文件,发现是VC6的工程,用VC6打开,如果用VS2003或者vs2005编译,会有很多编译错误。开始编译,有很多错误,然后Clean掉,Rebuild ALL,出现681 warning后成功编译。

发布:
bin.dbg下面是编译好的文件,然后把tessdata文件夹拷贝到bin.dbg下,需要测试的图像文件拷贝到此目录。文件必须是未压缩的tif位图格式(bit-map)。而且只能有一个bit的颜色。也就是非黑既白,而不仅仅是灰度。在photoshop里面可以简单地转换。彩色的要先转成灰度(grey scale)才能转成位图(bitmap)


测试:
执行例子图像文件tesseract.exe phototest.tif abc batch
输出结果在abc.txt,识别率竟然是100%。当然你自己做的图片就不一定有这么高。

posted on 2006-10-31 10:32 网际大鱼 阅读(13368) 评论(8) 编辑 收藏

评论

#1楼 2006-11-06 18:03 ruby[未注册用户]

我最近一直在看这个程序,
请问你研究过程序的算法吗?
希望能与你交流chenghao@hanwang.com.cn
 回复 引用   

#2楼 2006-11-20 15:45 阿佛[未注册用户]

老九也搞模式识别了?有阵子我想过去破解网站验证码,然后找相关的东西,感觉俄罗斯人做的有款软件效果不错,识别率比较高,它自带的有二值化工具,据说是业界排名第一的,可是是商业化产品,没有源码,想嵌在程序里也比较难  回复 引用   

#3楼 2007-01-08 15:24 好空[未注册用户]

我也在研究这个程序了~真麻烦.
有空一起讨论下吧,我的MSN:haokongdashi@hotmail.com
 回复 引用   

#4楼 2008-03-12 17:23 SEO[未注册用户]

不错,蛮有用的  回复 引用   

#5楼 2008-03-19 20:34 力大无比[未注册用户]

梦寐以求的技术  回复 引用   

#6楼 2008-04-08 06:03 蓝奇高级验证码识别引擎QQ:631753663[未注册用户]

出售蓝奇高级验证码识别引擎,可准确识别新浪动网淘宝CSDN等多种复杂验证码。

输出为一个标准DLL,可供VB,VC,Delphi,C#.NET,VB.NET,模拟精灵,按键精灵等多平台调用,调用方法简单,几行代码即可完成。独具特色的边缘检测字符分离、旋转倾斜纠正和通用字符匹配算法(无论字体和大小), 使得该引擎对于像新浪、动网、淘宝、CSDN等多种验证码均有不错的识别率,是一款效果较为理想的验证码识别引擎。附详细的调用实例和代码注释等相关技术文档。

官方网站 - http://***/yzm_advocr
识别效果怎么样一试就知道 - DEMO下载 http://***/yzm_advocr/advocr.rar
 回复 引用   

#7楼 2009-07-14 16:32 淘气皇上[未注册用户]

想跟你请教一下tesseract的使用方法。。现在想学习这个,但是一堆代码不知道从哪看起  回复 引用   

#8楼 2009-08-26 10:09 淘气的娃[未注册用户]

执行?怎么执行呢?  回复 引用   

导航

统计

公告

网名:机器人小PQQ:792892125机器人小P
昵称:网际大鱼
园龄:7年9个月
粉丝:1
关注:0

搜索

 
 

常用链接

随笔分类

随笔档案

文章分类

文章档案

朋友博客

积分与排名

最新评论

评论排行榜

推荐排行榜