玩一把tesseract

tesseract这个东西，之前朋友有个项目，问到我的时候看了一下，因为那个项目难度比较高，不敢接，也就作罢了。这次翻出来看看纯属兴趣 - 感觉手机拍照然后识别些东西，并且联网查询，还是蛮有意思的。

tesseact其实全称是tesseract-ocr，是个自动识别字符的程序，项目网址是：http://code.google.com/p/tesseract-ocr/。虽然其主流平台是三大系统（Win/Linux/Mac OS），但在android和iphone上也是可以跑的 - 这点对我来讲非常重要。
你可以直接想在其命令行工具使用，或者下载其SDK开发自己的程序。

tesseract支持多种语言 - 你只需下载对应的训练过的语言文件即可，并且可以通过config文件来调整行为：比如只识别数字，比如只识别指定的words或者指定的pattern。另外提一下，tesseract只支持字符识别，不支持条形码(barcode)识别【1】

【文档】

比较有用的链接：

FAQ：http://code.google.com/p/tesseract-ocr/wiki/FAQ
命令行程序帮助：http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html
基于tesseract开发的软件：http://code.google.com/p/tesseract-ocr/wiki/3rdParty
tesseract提供的工具与各种语言的API：http://code.google.com/p/tesseract-ocr/wiki/AddOns

【试玩】

我用手机拍了一张双色球的彩票：

直接识别：

$ tesseract IMAG0409.jpg IMAG0409 -l chi_sim

结果有点惨：

|.1 _>8-二 (樾 Q|. '1'ç ;,2. 4,之巴)'-j\
虻号 :s101 0500 » ()帆5
卉奖日朋 20菩2.10.:ö 生趴月亏201z127 上
姜丁琵日胴/盯间: 2012.10.26/11:26:26
A) H: 02 04 12 13 16 26
Q CD
"/ 、«
l"〓:广':::广'
Oo'--OO
l3!"'.>'-"]丹'_O
°
l薛
l2 l5 20 “
鹰
‘瞒ã
窜ã
薄喃§
薄5涟
'-‘iC-ei-l