ABBYY FineReader Engine是ABBYY专为开发人员、集成商、业务流程外包商(BPO)和原始设备制造商(OEM)提供的光学字符识别(OCR)软件开发工具包(SDK),它能够方便地将OCR技术集成到应用流程和设备中。ABBYY FineReader Engine中的文件自动分类API, 可以将文档分类和排序到预先定义的文档类型。

 

      下面,我们来简单地介绍一下ABBYY FineReader Engine的分类功能

      通过ABBYY FineReader Engine分类器,用户可以运行各种算法来给图片分类。安装ABBYY FineReader Engine时,系统会自带一个经过预训练的分类器。要运行这个分类器,你需要打开图片所在的目录(这里打开的是样本图片文件夹),然后运行分类器就行了。请注意,系统事先已经创建了4个图片分类,运行分类器时,分类器会对样本图片进行分类,将不同的样本图片归入相应的分类。

      通过上图可以看到,它识别出了一些收据、发票、合同页面和名片;你还可以看到,有一张图片没有被分类。

      现在,我们要使用训练过的分类器,并将这张图片添加到某个类别之中。

      因此,请选中User-trained classifier “用户训练分类器”按钮,选择Train“训练”,添加1个新类“ISBN”。选中”ISBN”,将然而,要创建新类,我需要用一些样本图片来训练分类器。我已经在这个目录中保存了一些样本图片:我要将它们复制到程序所使用的目录下。现在,我要返回分类器界面,选择Train“训练”,添加一个叫做“ISBN”的类,选中类,现在添加图片——使用目录中原有的样本图片,以及刚刚复制到目录下的一个新样本图片。其它两个图片将用来测试分类。选中图片后,按“训练分类”按钮,可以看到,添加了一个新类。现在,如果我进行分类,这个目录下有我刚刚复制进去的3张新图片。刚刚训练过的分类器将使用原有的4个类,以及我们添加的这个类。可以看到,和以前一样,名片被拆分成了多张名片。合同页识别出来了,发票页,收据…也可以看到,有4张图片被归入我们新建的ISBN类。通过这个界面,你可以测试ABBYY FineReader Engine的新增分类功能。

 

用户模式培训

 

      下面,我们来看看ABBYY FineReader Engine的用户模式培训工具。使用这个界面时,首先要打开一个文档。打开文件以后,可以看到,你可以培训新的用户模式,也可以应用现有的用户模式来识别文档。

      在这里,我们来学习如何培训新的用户模式。为此,我们要选择相应的按钮,按下recognize “识别”按钮。系统会询问存储用户模式文件时要用到的文件名以及其存储路径。然后,它会弹出对话框,让您选择不同位图分别识别为哪个字符。这里已经将这个位图标识为“R”,我们要保留它,直接跳过去。“T”也是一样,“B”、“L”、“E”…继续下去,直接跳过它标识过的所有位图。在这里,我们要做的是,当看到这个模式(这个位图)时,我们要创建“©”字符。现在我们按“训练”。继续:现在是字母“C”——跳过,跳过字母“R”…这一个,我们要训练,这里要创建带圆圈的R:®。训练完之后,移到下一个位图。这里分割出了不应该出现的像素图。所以,我们选中这个条,向下拖,现在它认为这是个“Y”——很好。我们要训练这个字符。这是个“C” ——好,跳过,跳过,跳过,现在我们就大功告成了。就如你看到的那样,接下来系统会利用训练好的模式,对样本图片进行字符识别。您可以使用缩放按钮来缩放图片并查看结果。可以看到,字符识别已经将原来是双引号的地方,改成了带圈的“C”和“R”:©和®。ABBYY FINEREADER ENGINE中就是这样使用模式训练工具的。

 

PDF导出配置


     ABBYY FineReader Engine生成PDF导出文件时,有多种选择方案。通过这个界面,可以选择一系列图片,根据你所选择的选项组合,将它们导出,然后根据不同的设置对它们进行处理。你会看到,导出文件的大小和导出速度有所不同。我只需要浏览目标目录,也就是FRE自带样本图片所在的目录。系统以不同的方式来处理图片,将相关信息存储起来,就生成了这个结果图表。你可以看到,使用不同的设置时文件大小会如何变化,转换速度(每分钟处理的页数)又会如何变化。这样,您可以快速地了解不同设置对文件大小和每分钟处理页数的影响。

 

多核心识别


      下面,我们来简单地介绍ABBYY FineReader Engine如何利用多核处理的优势。在这个界面上,选择样本图片;要记住,ABBYY FineReader Engine安装时自带了一些样本图片,你可以使用这些样本图片,也可以使用你自己的样本图片。选择一种或多种识别语言,选择要使用的内核的数量(这里最多允许使用10个内核)。我们来比较运行1核和4核的情况。确定是否要保存输出,然后点击“开始”,开始测试。

      测试会做些什么呢?正如你所看到的,Sample目录下有3幅图片。系统会在单核下分别运行3幅图片,并记录时间。然后在四核下运行这些相同的图片,并提供两种情况下的性能比较结果图表。如果你有兴趣,可以在安装ABBYY FineReader Engine时自带的Samples Code目录下找到样本代码。

 

名片识别功能

     下面,我们来简单介绍ABBYY FineReader Engine的名片识别功能。

      通过这个界面,用户可以检测名片。它是ABBYY FineReader Engine安装包的一部分,提供了样本名片,你可以使用它们进行测试,也可以用你自己的样本进行测试。在这里,我们要选择的样本是同一张图片中的六个样本名片。我们之所以这样做,是因为用户可以从中看到,有个选项可以检测出一个包中的多张名片。选择您想要的识别语言后,系统就会开始识别。它会分别对每张名片进行识别,然后将名片中的各个字段填入系统支持的字段,例如,你可以看到这个人的姓名、公司、职务等。要查看不同名片的识别效果,只需点击左侧的卡片:该卡的图片及所有的字段值将显示在右侧。通过这个新功能,您可以轻松捕获名片上的数据。它属于ABBYY FineReader Engine的新处理功能。

 

照片上的文本识别


      下面,我们来看看ABBYY FineReader Engine的相机图片处理功能。使用这个界面时,选择您要处理的样本图片、您是否要执行字符识别,以及各种图片校正和清洁选项。我们来添加“裁切图片”选项,点击“开始”,然后会讨论某些相关信息。

      处理时,我们先直接对图片进行识别。然后对图片进行各种修正,再加以识别。从识别结果可以看出,未经校正的图片没有识别出任何字符(这不足为怪),校正后的图片识别出了一串字符,在这个界面上你可以看到分割情况。ABBYY FineReader Engine提供这些功能,旨在增强相机图片的识别。

 

图片预处理


      在这个界面上,浏览选中你要处理的样本图片,决定是否要执行字符识别(在本例中我们将执行字符识别),选择你想选择的(本例中我们将裁剪图片,并进行其他操作)预处理选项,然后按“开始”。这时,系统会加载引擎,并在不对图片进行任何清理操作的情况下直接处理图片。然后,应用已选择的各种处理方案,重新处理图片。你会发现,它提供了一系列的一般预处理选项。此外,还有一些颜色处理功能。如果图片来自相机,针对那种图片有一些特定功能。在这里,可以看到,使用原始图片时,识别出了513个字符,106个不确定字符,处理过程共花了16秒。图片经过预处理以后,重新识别,识别出了更多的字符,不确定字符减少,处理速度也变得更快。你也可以看到,识别结果得到了改善。将鼠标悬停在单词上方,它会显示出各个单词的值。通过这个界面,你可以测试和尝试FRE中的各种图片预处理设置。

 

处理设定档

      在这里,我们来简单介绍ABBYY FineReader Engine提供的预定义处理配置文件。

      正如你所看到的,有一系列不同的处理配置文件,每个配置文件专用于某种特定的需求和处理类型。使用这个界面时,要浏览样本图片所在的目录,选择识别语言,然后点击go“开始”。这样,系统就会加载识别引擎。在这里,系统要在“文档转换(精度)” 配置文件下处理这个目录下的图片。然后,系统要在Document Conversion (accuracy) “文档转换(速度)” 配置文件下处理再次处理这些图片。系统将计算出不同配置文件下处理图片的各种统计信息,然后显示出这个图,你可以从中看到差别。正如你所看到的,Document Conversion (accuracy) “文档转换(精度)”比Document Conversion (speed) “文档转换(速度)”找到了更多的图片和其他各种图片对象。不过,“文档转换(精度)”的运行速度比“文档转换(速度)”慢。有各种各样的配置文件可供选择,通过这个界面,您可以将它们进行对比。

posted on 2014-11-25 14:59  lovesuae  阅读(957)  评论(0编辑  收藏  举报