摘要: 通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理PDF格式的文章,如下: 1 package com.mengyao.tika.app; 2 3 import java.io.File; 4 import java.io.FileInp... 阅读全文
posted @ 2015-11-03 12:05 孟尧 阅读(3820) 评论(0) 推荐(0)