首页  :: 新随笔  :: 管理

Apache Tika

Posted on 2017-03-14 18:16  季枫  阅读(278)  评论(0编辑  收藏  举报

Tika入门

 

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。

 

在当前版本中,Tika提供了对如下文件格式的支持:

 

PDF - 通过Pdfbox

MS-* - 通过POI

HTML - 使用nekohtml将不规范的html整理成为xhtml

OpenOffice 格式 - Tika提供

Archive - zip, tar, gzip, bzip等

RTF - Tika提供

Java class - Class解析由ASM完成

Image - 只支持图像的元数据抽取

XML

 

智读 | 成都会领科技有限公司官网 | 智读App下载 | 每天听本书的博客 | |