[Java] 利用xpdf库获取pdf文件的指定范围文本内容

编写者	日期	关键词
郑昀@ultrapower	2005-8-2	Java PDF xpdf

概述

读取PDF文件的某一部分文本内容，可以使用开源项目xpdf。

从Java中调用xpdf，我们参照了《Java抽取Word，PDF的四种武器》文章最后提到的办法。

总而言之，调用xpdf十分简单，下面讲一下xpdf的配置问题。

系统基础环境要求

下面是对运行xpdf软件服务的计算机的要求：

l 您可以从以下位置下载并安装 xpdf分发版本-补丁3的Win32版本：
ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.00pl3-win32.zip

l 还需要从以下位置下载并安装 xpdf针对中文简体的语言支持包：
ftp://ftp.foolabs.com/pub/xpdf/xpdf-chinese-simplified.tar.gz

(更多下载信息参考http://www.foolabs.com/xpdf/download.html)。

调用示范

下载完毕，请将xpdf-3.00pl3-win32.zip解压缩到C盘xpdf目录下，我们将以c:\xpdf作为xpdf的工作路径。

然后，请将xpdf-chinese-simplified.tar\xpdf-chinese-simplified的内容解压缩到xpdf根目录下的chinese-simplified目录中。

为了启用中文简体语言包，您必须将xpdf目录下的sample-xpdfrc文件另存为xpdfrc文件。

注意：此文件为配置文件，而且名称必须是xpdfrc。如果是别的名字，即使调用pdftotext.exe时，传入”-cfg xpdfrc2”来告诉xpdf配置文件的名字，好像pdftotext.exe也并没有使用这个配置文件。所以为了减少误解，请您将配置文件直接命名为xpdfrc。

修改配置文件一：

并在这个xpdfrc文件最后加上这么一段话：

多加这么一段配置：

#----- begin Chinese Simplified support package (2004-jul-27)

cidToUnicode Adobe-GB1 C:/xpdf/chinese-simplified/Adobe-GB1.cidToUnicode

unicodeMap ISO-2022-CN C:/PublicInstall/xpdf/chinese-simplified/ISO-2022-CN.unicodeMap

unicodeMap EUC-CN C:/xpdf/chinese-simplified/EUC-CN.unicodeMap

unicodeMap GBK C:/xpdf/chinese-simplified/GBK.unicodeMap

cMapDir Adobe-GB1 C:/xpdf/chinese-simplified/CMap

toUnicodeDir C:/xpdf/chinese-simplified/CMap

#displayCIDFontTT Adobe-GB1 /usr/..../gkai00mp.ttf

#----- end Chinese Simplified support package

注意Map文件的路径一定要正确。

修改配置文件二：

另外，配置文件中原先没有加上一个“textPageBreaks”控制。为了避免这个分页符号，我们需要在xpdfrc文件“text output control”下面加上这么一段话：

多加这么一段配置：

# If set to "yes", text extraction will insert page

# breaks (form feed characters) between pages. This

# defaults to "yes".

textPageBreaks no

设置textPageBreaks为no的意思是：在PDF文档的两页之间不加入分页符号。

之所以这样，是因为这个符号有时候会引起SAX解析XML上的困难。

修改配置文件三：

配置文件中原先把textEncoding注释了。这样默认的字符集是Latin1。我们必须打开它，并且就是指定textEncoding为UTF-8，而不是GB2312。

调用示范

下面的代码，演示了利用xpdf工具集中的pdftotext应用程序读取test.pdf的从第100个字符到第300个字符。给pdftotext.exe的运行参数中，“"-q"”指的是不打印转换中的错误提示；“"-cfg", "xpdfrc"”指的是采用配置文件xpdfrc。

代码示范：

String PATH_TO_XPDF="C:\\xpdf\\pdftotext.exe";

String filename="c:\\test.pdf";

int Begin = 100;

int End = 300;

String strResponse = "";

String[] cmd = new String[]

{ PATH_TO_XPDF,

"-cfg", "xpdfrc", "-q", filename, "-"};

Process p = Runtime.getRuntime().exec(cmd);

BufferedInputStream bis = new BufferedInputStream(p.getInputStream());

InputStreamReader reader = new InputStreamReader(bis, "UTF-8");

if(Begin > 0)

{

// 跳过Begin个字符

reader.skip(Begin);

}

// 本次要读取的字符数

int nLengthRead = End - Begin;

if(nLengthRead > 0)

{

// 准备好缓冲区

char [] buf = new char[nLengthRead];

// 输出到缓冲区

int nLengthWriteToBuffer = reader.read(buf);

reader.close();

// nLengthWriteToBuffer就是当前读取到缓冲区的字符数

if(nLengthWriteToBuffer > 0)

{

// 只有nLengthWriteToBuffer大于0，才说明文档有内容

strResponse = new String(buf);

}

else

{

// 否则可能是到了文档结尾

strResponse = "PDF_EOF_OF_DOC";

}

System.out.println("\t\r\n" + strResponse);

编写者	日期	关键词
郑昀@ultrapower	2005-8-2	Java PDF xpdf

posted @ 2005-08-03 15:26 老兵笔记阅读(10407) 评论(19) 收藏举报

刷新页面返回顶部

[Java] 利用xpdf库获取pdf文件的指定范围文本内容