网际大鱼-www.xwin32.cn

MSN: polugen@msn.com
http://www.xwin32.cn
http://www.dot9.cn
http://www.dbclick.com.cn
向IT相关的一切技术冲锋

 

用OCR技术识别验证码---tesseract


今天成功编译了Tesseract OCR 1.02 ,就是最近Google支持的那个OCR。原先是HP写的,现在Open source了。支持英文字母和数字。据说辨识程度是世界排名第三的。http://sourceforge.net/projects/tesseract-ocr

编译:
察看dsw文件,发现是VC6的工程,用VC6打开,如果用VS2003或者vs2005编译,会有很多编译错误。开始编译,有很多错误,然后Clean掉,Rebuild ALL,出现681 warning后成功编译。

发布:
bin.dbg下面是编译好的文件,然后把tessdata文件夹拷贝到bin.dbg下,需要测试的图像文件拷贝到此目录。文件必须是未压缩的tif位图格式(bit-map)。而且只能有一个bit的颜色。也就是非黑既白,而不仅仅是灰度。在photoshop里面可以简单地转换。彩色的要先转成灰度(grey scale)才能转成位图(bitmap)


测试:
执行例子图像文件tesseract.exe phototest.tif abc batch
输出结果在abc.txt,识别率竟然是100%。当然你自己做的图片就不一定有这么高。

posted on 2006-10-31 10:32 网际大鱼 阅读(...) 评论(...) 编辑 收藏

导航

统计

公告