jTessBoxEditor for Tesseract OCR

jTessBoxEditor下载地址

以下翻译自安装（解压）后的Readme文件

jTessBoxEditor

jTessBoxEditor是一个Tesseract OCR的Box编辑器，提供Tesseract 2.0x and 3.0x 格式的Box数据编辑功能。可以读取包括multi-page TIFF在内的通用图片格式。

双击JAR文件启动程序，或者通过如下的命令行方式，Windows下有run.bat批处理文件，可以通过修改启动参数，增加分配给java虚拟机的内存

java -Xms128m -Xmx512m -jar jTessBoxEditor.jar

需要把TIFF/Box文件作为这个程序的输入。

格式要求：

训练用的图片:300DPI, 1 bpp(bit per pixel), 黑白或8位灰度，无压缩的TIFF格式

Box文件：UTF-8编码，通过Tesseract命令行+相应的命令行选项生成(参考 Tesseract Wiki)。

训练操作可以通过附带的train.ps1 Windows PowerShell脚本自动化。

注意：Box文件使用的坐标系统把左下作为（0,0），而计算机图形设备上把左上定义为（0,0）。 jTessBoxEditor使用并显示参考图形设备坐标。编辑的Box文件仍然在读写时参考自己的坐标。

这个软件中包含一个转换功能，会把字符文本字段的数字字符引用（NCR）和转义序列转换为Unicode字符。

Merge TIFF功能，可以把含有相同的字体的文本多个图像保存到一个单一的多页TIFF文件中，用于后续训练。

Generate TIFF/Box功能由一个输入的UTF-8文本文件生成供Tesseract训练用的一对TIFF/Box文件。生成的图像是一个二进制或者灰度的无压缩多页300DPI的TIFF图像，依赖抗锯齿模式是否有效（？）。

为了消除box边界重叠问题，字符追踪或字符间距可以通过Tracking微调器来进行调整。

注意，某些框的坐标可能会与由TESSERACT自己生成的略有不同（偏差1或2个像素）。但是，所生成的Box文件可以用如WinMerge的支持Unicode的文本比较工具进行比较验证。

提示：实验表明，Generate TIFF/Box功能使用字体大小24pt或更大生成的图像会有较高的训练质量。

结合符号或变音符号(如梵文或印度语 )，需要与主、基本字符结合使用，可以由用户指定一个UTF-8的文本文件，例如data目录下的 combiningsymbols.txt文件。此文件可以被Generate TIFF/Box功能读取，这种设置使用户可以为他们的语言脚本灵活定义结合符号/变音符号。

-- end --

posted on 2013-09-07 13:26 大萝卜空心的阅读(3395) 评论(1) 收藏举报