MODIOCR 基于MODI的光学字符识别软件

前言
20多年前,为了将图书内容加入数据库,我开始热衷于OCR,当时热门的软件有汉王、清华等,自己也OCR及校对了一些图书。一直有个梦想,搞一个自己的OCR软件,直至2012-7-2 strnghrs在网上读书园地发帖MODI中的OCR模块,我开始接触MODI,2020年尝试制作自己的OCR软件,2022-9-29首发网上读书园地迎国庆:MODIOCR有奖销售;2022-12-1更新MODIOCR更新版V3.6。由于受制于此OCR引擎的性能,中英混合的识别效果并不理想,但这是我多年前的一个梦想,加之可将其用于满足其它软件中简单OCR的需求,所以仍花费了一些时间进行研究和制作,现分享给大家,更多的是作为一种记念。
简介
本程序利用Office2003/2007自带的MODI组件进行文字识别,支持校对、支持文本整理、支持表格导出为Excel/Word、支持截屏OCR。特点:免费、小巧、灵活、方便。
软件安装
1,安装Office2003/2007的Microsoft Office Document Imaging。如有困难,请搜索“安装Microsoft Office Document Imaging MODI方法”。要在不安装Office的情况下安装MODI,请访问“老马的原创空间”。然后查找“最新软件下载地址”。也可以直接下载Strnghrs制作的Setup_MODI_OCR_Engine_From_Office2007SP3.exe进行安装。
2,安装运行库及控件
本程序由VB6编写,需要VB6运行库支持:需要安装运行库及一些控件才能正常运行主程序。如果无法正常运行软件,通常是缺少运行库或控件,请运行主程序所在路径的SETUP文件夹中的Setup.exe进行安装。注意:①win7以上,需以管理员身份运行安装文件及主程序!②Support文件夹必须与Setup.exe在同一目录中且路径中不能有空格及特殊符号。
使用说明
运行主程序MODIOCR.exe。打开要OCR的图片,然后点击“直接OCR”。更多功能,详见使用说明。
支持现存图片(支持多选、拖放,批量)、截图、从粘贴板粘贴图片等的OCR;支持自动版面分析,对于高质量文字图片能直接输出几乎无冗余回车的文字;支持自动与手动配合设置表格分割线、支持单元格合并。支持自动保存OCR数据,方便随时调用。支持模板的设置,方便重复调用。
软件更新
2022-12-01更新内容:
1,优化OCR原始数据处理方法,使得自动版面分析及自动生成表格更准确。
2,新增深度版面分析功能,自动版面分析及识别表格并生成表格分割线,支持批量操作。
3,优化了校对功能:新增添加OCR漏识别文字时自动定位功能,新增重新定位字符位置的功能(选中需要重新定位的文字,然后回车)。若打开"查找替换窗口",可进行查找替换操作。
4,新增数据校正/替换/删除功能:针对中文与数字、中文与英文混合识别效果较差的情况,增加了"数据校正"及"数据替换"功能,即用英文识别的结果校正或替换原识别错误的数据。"数据删除"功能通常用于删除图片中夹杂的一些小图标导致的无效OCR数据。数据校正(对选中的区域/版面用英文OCR数据进行校正);数据替换(对选中的区域/版面用英文OCR数据进行替换);数据删除(删除选中区域/版面中的数据)。还可用当前选中语言进行数据校正/替换。数据校正时,需要设置识别置信度限制。
5,优化OCR结果输出方法,支持文本与表格的混合输出,导出word表格,支持导出图片格式的表格(未选中"通用选项"时,否则导出文本格式的表格)。优化对文本换行的判断方法,使输出更准确。
6,新增2个选项:"通用选项":程序共用的选项,不同的操作有相应的用途,总的原则是:选中状态是最方便、智能的方案,不选中是灵活、可选择的方案(默认选中)。当截图或粘贴图像时,若选中则自动保存至默认路径(Temp文件夹中),否则弹窗另存。OCR时,若选中,使用更智能的数据处理方案,否则采用尽量保持原貌的方案。表格导出至 Word时,若选中则导出文本格式的表格,否则导出图片格式的表格。"清空列表":若选中,当批量选择/拖放文件加入文件列表时,清空原列表后再加入列表,否则直接追加至原列表中(默认不选中)。
7,新增图片缩放功能,方便查看图片全貌及校对(注:版面设置需要在原图窗口中操作)。在工具栏"缩放图片"按钮右侧的下拉菜单中可选择缩放的方式,点击此按钮可显示/隐藏图片缩放窗口。双击原始图片窗口/图片缩放窗口,可进行相互切换。
8,修正一些bug。
下载地址
MODIOCR成品及安装包20221201.rar(https://wwas.lanzouu.com/i24I50hfi5zg)密码:8t8a
Strnghrs制作的Setup_MODI_OCR_Engine_From_Office2007SP3.exe(https://wwas.lanzouu.com/iT9d52jjn07g)

浙公网安备 33010602011771号