jTessBoxEditor for Tesseract OCR

jTessBoxEditor下载地址

http://vietocr.sourceforge.net/training.html

以下翻译自安装(解压)后的Readme文件 

jTessBoxEditor

简介

jTessBoxEditor是一个Tesseract OCR的Box编辑器,提供Tesseract 2.0x and 3.0x 格式的Box数据编辑功能。可以读取包括multi-page TIFF在内的通用图片格式。

系统需求

Java Runtime Environment 6.0 or later.

说明

双击JAR文件启动程序,或者通过如下的命令行方式,Windows下有run.bat批处理文件,可以通过修改启动参数,增加分配给java虚拟机的内存

java -Xms128m -Xmx512m -jar jTessBoxEditor.jar

需要把TIFF/Box文件作为这个程序的输入。

格式要求:

训练用的图片:300DPI, 1 bpp(bit per pixel), 黑白或8位灰度, 无压缩的TIFF格式

Box文件:UTF-8编码, 通过Tesseract命令行+相应的命令行选项生成(参考 Tesseract Wiki)。

训练操作可以通过附带的train.ps1 Windows PowerShell脚本自动化。

注意:Box文件使用的坐标系统把左下作为(0,0),而计算机图形设备上把左上定义为(0,0)。 jTessBoxEditor使用并显示参考图形设备坐标。编辑的Box文件仍然在读写时参考自己的坐标。

这个软件中包含一个转换功能,会把字符文本字段的数字字符引用(NCR)和转义序列转换为Unicode字符。

Merge TIFF功能,可以把含有相同的字体的文本多个图像保存到一个单一的多页TIFF文件中,用于后续训练。

Generate TIFF/Box功能由一个输入的UTF-8文本文件生成供Tesseract训练用的一对TIFF/Box文件。生成的图像是一个二进制或者灰度的无压缩多页300DPI的TIFF图像,依赖抗锯齿模式是否有效(?)。

为了消除box边界重叠问题,字符追踪或字符间距可以通过Tracking微调器来进行调整。

注意,某些框的坐标可能会与由TESSERACT自己生成的略有不同(偏差1或2个像素)。但是,所生成的Box文件可以用如WinMerge的支持Unicode的文本比较工具进行比较验证。

提示:实验表明,Generate TIFF/Box功能使用字体大小24pt或更大生成的图像会有较高的训练质量。

结合符号或变音符号(如梵文或印度语 ),需要与主、基本字符结合使用,可以由用户指定一个UTF-8的文本文件,例如data目录下的 combiningsymbols.txt文件。此文件可以被Generate TIFF/Box功能读取,这种设置使用户可以为他们的语言脚本灵活定义结合符号/变音符号。

-- end --

 


posted on 2013-09-07 13:26  大萝卜空心的  阅读(3305)  评论(1编辑  收藏  举报