摘要:
由于OCR技术本身属于一个比较复杂比较新颖的技术,比较多软件公司都把它作为知识产权的一部分,网络上比较难找到开发教材。因此,采用一些现有的OCR识别模块将有助于减少开发时间,增加研发效率。对比了一些商业模块与开源模块,觉得其中tesseract-ocr开源模块比较贴合这次项目的要求(当前项目对文字数量少,只需要找出两机种不同,相对来说精确度要求低)。tesseract-ocr是一款开源的OCR识别引擎,初期引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。当前版本为3.02。其通过不同的语言训练库可以支持多种语言(包括中文、日文)。从项目地址 阅读全文
posted @ 2013-10-25 08:50
sosoben
阅读(8692)
评论(0)
推荐(0)
2013年10月25日