摘要: 背景 笔者曾供职于某信息安全公司,接到过一个需求,提取文档中的文本以供后续分析。tika是apache开源的解析文档内容的组件,应用十分广泛。tika几乎支持你能想到的所有文档格式,docx , pptx , xlsx , pdf, zip , rar , tar 等。 tika本身只是一个门面,不 阅读全文
posted @ 2021-09-07 22:21 时光之末 阅读(2098) 评论(2) 推荐(0)