乘风破浪，遇见最美Windows 11之现代Windows桌面应用开发 - 文档OCR解决方案: 泰比(ABBYY FineReader Engine) VS 微软云机器视觉(Azure Computer Vision)

什么是光学字符识别(OCR)

光学字符识别(Optical Character Recognition，OCR)是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题，智能字符识别(Intelligent Character Recognition, ICR)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

发展简史

OCR的概念是在1929年由德国科学家Tausheck最先提出来的，后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy，1966年他们发表了第一篇关于汉字识别的文章，采用了模板匹配法识别了1000个印刷体汉字。

早在60、70年代，世界各国就开始有OCR的研究，而研究的初期，多以文字的识别方法研究为主，且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例，1960年左右开始研究OCR的基本识别理论，初期以数字为对象，直至1965至1970年之间开始有一些简单的产品，如印刷文字的邮政编码识别系统，识别邮件上的邮政编码，帮助邮局作区域分信的作业；也因此至今邮政编码一直是各国所倡导的地址书写方式。

20世纪70年代初，日本的学者开始研究汉字识别，并做了大量的工作。中国在OCR技术方面的研究工作起步较晚，在70年代才开始对数字、英文字母及符号的识别进行研究，70年代末开始进行汉字识别的研究，到1986年，我国提出“863”高新科技研究计划，汉字识别的研究进入一个实质性的阶段，清华大学的丁晓青教授和中科院分别开发研究，相继推出了中文OCR产品，现为中国最领先汉字OCR技术。早期的OCR软件，由于识别率及产品化等多方面的因素，未能达到实际要求。同时，由于硬件设备成本高，运行速度慢，也没有达到实用的程度。只有个别部门，如信息部门、新闻出版单位等使用OCR软件。进入20世纪90年代以后，随着平台式扫描仪的广泛应用，以及我国信息自动化和办公自动化的普及，大大推动了OCR技术的进一步发展，使OCR的识别正确率、识别速度满足了广大用户的要求。

2020年9月28日，在中华人民共和国工业和信息化部、北京市人民政府、国际电信联盟（ITU-T）指导的2020 AIIA人工智能开发者大会上，主办方正式发布国内首份智能文字识别（OCR）能力测评与应用白皮书。该白皮书从OCR发展背景、技术沿革、产业发展现状、技术标准化、发展趋势等多个维度，对当前国内OCR产业进行了梳理，全面助推OCR技术产业化加速落地及可持续发展。

什么是智能字符识别(ICR)

智能字符识别(Intelligent Character Recognition, ICR)是在OCR的基础上，植入了计算机深度学习的人工智能技术。

智能字符识别，就是在OCR的基础上，植入了计算机深度学习的人工智能技术。采用了语义推理和语义分析，对于OCR未识别的字符，可根据该字符上下文语句信息并结合EAI的语义网络的知识库，进行未识别部分的字符信息补全。在语义推理的过程中，只有当未识别字符上下文片段中的变量节点与语义知识库中语句匹配完全成功时，才将匹配结果输出，解决了OCR技术的缺陷。

ABBYY FineReader Engine

泰比(ABBYY)是一个在文档转换、数据捕获和语言软件领域领先的供应商。泰比(ABBYY)研究和发展的关键领域包括文档识别技术及应用语言学。与ABBYY建立合作可帮助您获得更多客户，提高您现存业务收入并从全球技术领导者的长期经验中获益。

泰比(ABBYY)的识别技术和产品为人们越来越多的资料信息提供了强有力的工具，使他们能够：从纸张和图像上获得信息，自动获取数据，处理和存储有用的信息。利用识别和数据采集产品，人们能够在数据输入方面节省大量的金钱和精力，并能以一种更新和更有效的方式来获取信息和资料。我们的语言产品帮助打破语言障碍，促进交流和沟通变得更容易和更清晰。

我们公司的名字 - 泰比(ABBYY) - 可理解为敏锐的眼光。这个词来自于假设（重建）的母语苗瑶，怒，苗瑶，苗族和金文中的群体藏语系。这个名称和它的意义（敏锐），反映了公司的活动和研究的重点领域：文档识别和语言技术。

泰比(ABBYY)的产品，从为PC和手持终端开发的终端用户应用方案到为企业提供的专业解决方案和开发工具，全球用户总人数已经超过3000万人。

ABBYY总部在北美, 还在德国，英国，法国，西班牙，俄罗斯，塞浦路斯，乌克兰，台湾，香港，新加坡，匈牙利，澳大利亚和日本设有地区办事处。

https://www.abbyy.cn

面向软件开发人员的最全面的OCR SDK

ABBYY FineReader Engine软件开发工具包允许软件开发人员创建可从纸质文档、图像或显示中提取文本信息的应用程序。这种人工智能驱动的OCR SDK为您的应用程序提供出色的文本识别、PDF转换和数据捕获功能，使其能够将扫描件转换为可搜索的PDF、Word或Excel文档以及访问照片或屏幕截图上的数据。

主要特点

文字识别开发包可适用于Windows、Linux、Mac OS及嵌入平台，在内部或云上。

高精度的OCR识别率

使用ABBYY FineReader Engine为您的客户提供出色的OCR质量。 ECM系统、文档成像和捕捉解决方案、RPA解决方案以及扫描仪和MFP制造商的领先供应商都信任和选择ABBYY OCR技术。

增加的价值

拓展您的解决方案。ABBYY FineReader Engine使您的软件能够将TIFF Lib转换为PDF、PDF / A、Word或其他格式并准确提取字段值。在Windows、Linux或Mac平台上开发并在云或VM平台上运行您的软件。

更快的市场响应时间

使用OCR工具包中强大的文本识别API，使您领先的OCR解决方案在激烈市场竞争中脱颖而出，。利用预先配置的工具、参数、代码示例和其他组件轻松集成世界级的OCR功能。

人工智能和机器学习

AI (人工智能)，ML(机器学习)和其他先进技术为多语言文档提供优秀识别准确性并提供可反映其原始文件的可搜索和可编辑文档。

OCR阶段

ABBYY FineReader Engine OCR过程由多个步骤组成，从导入图像到导出识别结果。

1. 图像导入

OCR开发人员工具包可以接收来自多个来源的图像。可以导入保存为TIFF、JPEG、PDF或其他图像格式的文本图像，同时可以直接从存储器处理拍摄的文本或扫描的纸张文档。

2. 图像预处理

为了提高识别准确度，在预处理步骤期间图像质量得到增强。该SDK以优化图像质量应用了广泛的成像功能，如图像旋转、二值化、去偏斜等等。

3. 文本导入和文件重建分析

使用基于AI的算法和ABBYY Adaptive Document Recognition Technology （ADRT®），OCR工具包可以分析每个单独页面的布局以及整个文档的结构。在文档分析步骤中，文件根据其逻辑结构被进行分析 SDK为导出- 识别结果第一个和最后一个文档页面，检测脚注、页眉、页脚和内容表格等格式元素。同时，检测每个单独页面的布局重建，并将每个页面分成单独的不同级别提供了多种选择。有多种存储格式可用：对象，如文本块、XML图片、不同类型的PDF表格和PDF / A表格单元格式、可编辑条形码和分隔符。此外，文档分析算法检测页面方向，识别双页，检测垂直文本。该过程定义了文本识别的Microsoft®区域，并在OfficeCR过程结束时为最终文档重建提供有关布局和其他保存格式化元素的信息。

4. 识别

具有最高的精度，ABBYY FineReader Engine SDK可提取多种语言的机器打印和手写打印文本（OCR、ICR）以及各种其他信息，包括检查标记（OMR）和条形码（OBR）。通过创建自己的字典或识别模式，开发人员可以提高特定语言、不寻常字符或字体的识别准确性。

5. 文本导入和文件重建

OCR SDK为导出识别结果和文档布局重建的不同级别提供了多种选择。有多种存储格式可用：文本、XML、不同类型的PDF和PDF / A格式、可编辑的Microsoft®Office文档和其他保存格式。

版本规格

ABBYY FineReader Engine 12 for Windows
ABBYY FineReader Engine 12 for Linux
ABBYY FineReader Engine 12 for Mac

支持识别语言

ABBYY FineReader Engine 12支持市场上最多的识别语言。它提供拉丁语，西里尔语，希腊语或亚美尼亚语的语言识别，以及阿拉伯语、缅甸语（技术预览）、波斯语、希伯来语、中文、日语、韩语、俄语，泰语和其他语言。为了进一步提高识别准确性，为许多语言提供了集成的词典。为了增加对不寻常单词和非典型字体的识别，可以使用一个小的集成实用程序来实现自己的字典并创建自己的字符模式。

此外，SDK还提供对17至19世纪印刷的英文、法文、德文、意大利文和西班牙文的历史文件的识别，人工语言的识别（世界语、国际语、伊多语和西方语、识别编程语言（Basic、C / C ++）、COBOL、Fortran、JAVA和Pascal），简单的化学式和标准数字。总之，ABBYY FineReader Engine支持208种OCR和126种ICR语言。

与用户交互的语言

消息框，如错误消息、提示和警告，提供英语、保加利亚语、捷克语、中文（PRC和台湾）、丹麦语、荷兰语、爱沙尼亚语、法语、德语、希腊语、匈牙利语、意大利语、日语、韩语、波兰语、葡萄牙语（巴西）、俄罗斯、斯洛伐克、西班牙、瑞典、土耳其和乌克兰。

支持的Office输入格式

ABBYY FineReader Engine 可以打开以下列格式创建的文件:

文本格式: .doc, .docx, .rtf, .htm / .html, .txt, .odt
表格式: .xls, .xlsx, .ods
演示文稿格式: .ppt, .pptx, .odp
以数字方式创建的 PDF: .pdf

支持的图像格式（打开、保存）

ABBYY FineReader Engine 可以打开许多格式的图像文件。此外，OCR SDK 能够以多种图像格式保存结果。

支持的图像格式列表:

支持的文件保存格式

ABBYY FineReader Engine 可以将识别的文本保存为以下格式:

支持的条形码类型

ABBYY FineReader Engine识别以下的条形码类型：

1D：Codabar、Code 128、Code 39、Code 93、Code 32、EAN 8 and 13、Full ASCII Code 39、GS1-128、IATA 2 of 5、Industrial 2 of 5、Interleaved 2 of 5、Intelligent Mail (a.k.a USPS 4-CB)、Matrix 2 of 5、Patch、PostNet、UPC-A、UPC-E.
2D：Aztec、Data Matrix、MaxiCode、PDF 417、QR Code.

光学标记识别

ABBYY FineReader Engine识别简单复选标记、分组复选标记、模型复选标记和手动更正的复选标记：

方框中的复选标记
在白色背景上的复选标记
非标准复选标记（此类复选标记需要事先培训）

注意：此功能仅适用于ABBYY FineReader Engine for Windows。 Linux和Mac版本不支持。

2021年2月24日, 远程办公兴起，ABBYY 内容智能解决方案需求激增

https://www.abbyy.cn/company/news/demand-soars-for-abbyy-content-intelligence-solutions-2021/

随着远程办公模式的兴起，人们迫切需要快速获取和利用信息，在这一趋势的推动作用下，ABBYY的报告显示，2020年ABBYY的内容智能解决方案持续保持强劲增长势头。全球众多组织，从处理SBA PPP贷款和金融转型的金融服务公司，到想要降低交易成本的运输和物流公司，再到加速推进公共卫生计划的政府机构，都依靠ABBYY捕获和洞察内容数据，确保远程办公的员工可以更好地服务客户。

“我们始终致力于帮助那些在办公自动化方面面临困难的企业，满足他们的关键业务需求，利用数字智能帮助他们加速数字化转型。”ABBYY市场营销高级副总裁Bruce Orcutt表示，“对于许多人和很多组织来说，过去的一年充满了挑战，不仅仅是个人，企业的业务连续性也受到了巨大影响。我们很高兴能在这方面做出一些贡献，帮助推进智能自动化，帮助组织提高员工的工作效率，改善客户体验。”

ABBYY内容智能解决方案是ABBYY数字智能服务的一部分，还包括关键流程理解，使智能自动化平台能够理解内容，创造价值。ABBYY 内容智能解决方案可以作为一种快捷服务，用于捕获和传送文档、提取数据或执行任何与理解和处理内容相关的其他任务。实时信息访问是在业务运营中全面整合数字智能和创造更多积极成果的基石。

多家行业分析公司认可了ABBYY在智能文档处理领域的领导地位，凭借卓越的技术和客户影响力，ABBYY被Quadrant Knowledge Solutions纳入最近发布的SPARK MatrixInfoSource，同时Everest Group和GMI Research的内容智能市场报告也对ABBYY给予了高度评价。

Quadrant Knowledge Solutions公司行业经理Shruti Jadhav表示：“ABBYY拥有一个强大的技术平台，具有全面的功能、有竞争力的差异化战略和令人叹服的产品战略和路线图。ABBYY 各方面的综合评分最高，是2020年智能文档处理市场SPARK Matrix中毫无疑问的技术领导者。此外，ABBYY拥有强大的合作伙伴生态系统，并广泛支持各种行业应用，在客户中有着很大的影响力。”

ABBYY内容智能解决方案需求的不断增长源于强大的全球市场地位、成熟的机器学习技术、持续的创新以及不断扩张的全球合作伙伴网络。最新的合作伙伴包括机器人流程自动化 (RPA) 方案供应商，以及其他一些帮助组织加速数字化转型的解决方案供应商，如Incture，Olive AI、JAGGAER。

“ABBYY 为我们的Cherrywork®平台提供了重要的内容智能技术。”Incture创始人兼CEO Sachin Verma说，“ABBYY在将非结构化内容转化为有价值的业务数据方面非常专业，这对于我们将客户迁移到SAP Cloud非常重要。我们的超自动化云应用的用户不断增多，而ABBYY可以为企业运行SAP提供数字智能技术，因此我们选择了ABBYY。”

Sachin 进一步补充道：“我们的客户非常喜欢ABBYY可靠的内容智能服务。ABBYY解决方案使我们能够轻松地将内容驱动的智能数字应用与SAP系统进行整合，实现任务关键型的业务流程。”

根据IDC Worldwide Capture Applications Forecast Update 2020-2024年的预测，数据捕获市场规模预计将增至约10亿美元。IDC还进行了一项调查，发现组织在内容智能技术方面的平均支出比去年增加了31%。

Orcutt表示：“由于企业、员工和客户面临着各个方面的影响，特别是居家办公的员工越来越多，因此需要解决方案来提高流程效率，增加利润空间。我们的内容智能产品已经成为企业实现自动化的关键，并且我们预计，随着企业从业务连续性转向提升用户体验，对我们产品的需求还会进一步增加。”

Azure Computer Vision

计算机视觉读取API是Azure最新的OCR技术，可从图像和多页PDF文档中提取印刷文本（多种语言）、手写文本（多种语言）、数字和货币符号。该技术经过优化，可以从多文本图像中提取文本，也可从包含混合语言的多页PDF文档中提取文本。它支持提取同一图像或文档中的印刷文本和手写文本。

输入要求

读取调用采用图像和文档作为输入。这些输入需满足以下要求：

支持的文件格式：JPEG、PNG、BMP、PDF和TIFF
对于PDF和TIFF文件，最多处理2000个页面（对于免费层，只处理前两个页面）。
图像的文件大小必须小于500MB（对于免费层，则为4MB），且尺寸介于50x50和10000x10000像素之间。PDF文件没有大小限制。
对于1024x768的图像，要提取的文本的最小高度为12像素。这对应于大约8个字体点文本，即150DPI。

支持的语言

https://docs.microsoft.com/zh-cn/azure/cognitive-services/computer-vision/language-support#optical-character-recognition-ocr

读取API最新正式发布版支持164种打印文本语言和9种手写文本语言。

打印文本的OCR包括对英语、法语、德语、意大利语、葡萄牙语、西班牙语、中文、日语、韩语、俄语、阿拉伯语、印地语和其他使用拉丁语、西里尔语、阿拉伯语和梵文脚本的国际语言的支持。

手写文本OCR包括对英语、简体中文、法语、德语、意大利语、日语、韩语、葡萄牙语、西班牙语的支持。

主要功能

https://docs.microsoft.com/zh-cn/azure/cognitive-services/computer-vision/how-to/call-read-api

读取API包括以下功能。

164种语言的打印文本提取
9种语言的手写文本提取
具有位置和置信度分数的文本行和字词
不需要语言标识
支持混合语言、混合模式（打印和手写）
从大型多页文档中选择页面和页面范围
文本行输出的自然读取顺序选项（仅限拉丁语）
文本行的手写分类（仅限拉丁语）
本地部署可用的DistrolessDocker容器

使用云API或本地部署

https://docs.microsoft.com/zh-cn/azure/cognitive-services/computer-vision/computer-vision-how-to-install-containers?tabs=version-3-2

大多数客户都青睐读取3.x云API，因为它易于集成，而且其现成可用的性质能够提高工作效率。Azure和计算机视觉服务将处理缩放、性能、数据安全与合规需求，你只需将工作重心放在满足客户需求上。

对于本地部署，可以使用读取Docker容器（预览版）在你自己的本地环境中部署新的OCR功能。容器非常适合用于满足特定的安全性和数据管理要求。

快速入门

https://docs.microsoft.com/zh-cn/azure/cognitive-services/computer-vision/quickstarts-sdk/client-library?tabs=visual-studio&pivots=programming-language-csharp

安装Nuget库

Microsoft.Azure.CognitiveServices.Vision.ComputerVision

https://www.nuget.org/packages/Microsoft.Azure.CognitiveServices.Vision.ComputerVision/

什么是Vision Studio

Vision Studio是一组基于UI的工具，可让你探索、生成和集成来自Azure计算机视觉的功能。

Vision Studio为你提供了一个平台，可以快速、直接地尝试多种服务功能并对其返回的数据进行采样。使用Studio，你无需编写任何代码即可开始试验服务并了解它们提供的内容。然后，使用可用的客户端库和RESTAPI开始将这些服务嵌入到你自己的应用程序中。

开始使用Visual Studio

若要使用Vision Studio，你需要Azure订阅和认知服务资源以进行身份验证。你还可以使用此资源在试用体验中调用服务。执行以下步骤以开始操作。

创建Azure订阅（如果还没有）。可以免费创建一个帐户。
转到Vision Studio网站(https://portal.vision.cognitive.azure.com)。如果这是你第一次登录，你将看到一个弹出窗口，提示你登录Azure，然后选择或创建Vision资源。你可以选择跳过此步骤并稍后执行。

选择“选择资源”，然后选择订阅中的现有资源。如果要创建新资源，请选择“创建新资源”。然后，输入新资源的信息，例如名称、位置和资源组。

选择“创建资源”。系统将创建你的资源，你将能够试用Vision Studio提供的不同功能。

从这里，你可以选择Vision Studio提供的任何不同功能。其中一些在服务快速入门中进行了概述：

计算机视觉提供了多种功能，这些功能使用预构建、预配置的模型来执行各种任务，例如：了解人们如何在空间中移动、检测图像中的人脸以及从图像中提取文本。

这些功能中的每一项在Vision Studio中都有一个或多个试用体验，允许你上传图像并接收JSON和文本响应。这些经验可帮助你使用无代码方法快速测试功能。

参考

posted @ 2022-06-30 15:31 TaylorShi 阅读(848) 评论(0) 收藏举报

刷新页面返回顶部

TaylorShi