验证码识别流程图
出处:http://wangzebin.blog.51cto.com/653300/128549/
复杂一点的地方主要是验证码的识别部分:
多亏这个网站的验证码图片比较简单,4个字符组成,虽然有干扰色,有噪点,有字符粘联,并带一定旋转,但只有数字,没有字母和汉字,否则麻烦大了,得做个完整的ocr系统。
图片处理流程如下:

识别模拟过程如下:

对比相似度是识别的难点,我这里由于图片比较简单,所以比较省力。对于比较复杂的图片识别,你可以建立数学模型,将图片和模板做成矩阵,依照矩阵变换和旋转进行相似度的比较,感兴趣的哥们可以更深入的了解。
源码我把它放到资源里面去,大家可以免分下载。各位见笑了,dephi7编写,当时的识别率差不多80%左右。