摘要: 通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理Word格式的文章,如下:package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;im... 阅读全文
posted @ 2015-11-18 19:58 孟尧 阅读(2841) 评论(0) 推荐(0)
摘要: 通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理JPEG格式的图片,如下:package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;im... 阅读全文
posted @ 2015-11-18 19:45 孟尧 阅读(1701) 评论(0) 推荐(0)
摘要: 通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理HTML格式的文章,如下:package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;im... 阅读全文
posted @ 2015-11-18 19:33 孟尧 阅读(2362) 评论(0) 推荐(0)
摘要: 通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理XML格式的文章,如下:package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;imp... 阅读全文
posted @ 2015-11-18 19:28 孟尧 阅读(730) 评论(0) 推荐(0)
摘要: 通常在使用爬虫时,爬取到网上的文章都是各式各样的格式处理起来比较麻烦,这里我们使用Apache-Tika来处理Excell格式的文章,如下:package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;... 阅读全文
posted @ 2015-11-18 19:19 孟尧 阅读(1657) 评论(0) 推荐(0)