PDFBOX can onley select text from pdf?

Java

import org.pdfbox.pdmodel.PDdocument．

import org.pdfbox.pdfparser.PDFParser;

import java.io.*;

import org.pdfbox.util.PDFTextStripper;

import java.util.Date;

/**

* Title: pdf extraction

* Description: email:chris@matrix.org.cn

* Company: Matrix.org.cn

* @author chris

* @version 1.0,who use this example pls remain the declare

public class PdfExtracter{

public PdfExtracter(){

}

public String GetTextFromPdf(String filename) throws Exception

{

String temp=null;

PDdocument．nbsppdfdocument．null;

FileInputStream is=new FileInputStream(filename);

PDFParser parser = new PDFParser( is );

parser.parse();

pdfdocument．nbsp= parser.getPDdocument．);

ByteArrayOutputStream out = new ByteArrayOutputStream();

OutputStreamWriter writer = new OutputStreamWriter( out );

PDFTextStripper stripper = new PDFTextStripper();

stripper.writeText(pdfdocument．getdocument．), writer );

writer.close();

byte[] contents = out.toByteArray();

String ts=new String(contents);

System.out.println("the string length is"+contents.length+"\n");

return ts;

}

public static void main(String args[])

{

PdfExtracter pf=new PdfExtracter();

PDdocument．nbsppdfdocument．nbsp= null;

try{

String ts=pf.GetTextFromPdf("c:\\a.pdf");

System.out.println(ts);

}

catch(Exception e)

{

e.printStackTrace();

}

同时CSHARP如下
引用一些类

PDDocument doc = PDDocument.load("4.pdf");
//doc.getDocument();
PDFTextStripper pdfStripper = new PDFTextStripper();

   PDFTextStripper stripper = new PDFTextStripper();
   stripper.getText(doc);
   doc.close();

最新版本省去了一下数据流的操作
参考：http://pdfhome.hope.com.cn/

posted @ 2008-05-27 21:25 拒绝潜水的鱼阅读(1083) 评论(0) 收藏举报

刷新页面返回顶部

拒绝潜水的鱼

@微观互联日记

PDFBOX can onley select text from pdf?

公告