2015 年 11月 18 日随笔档案 - 孟尧

2015年11月18日

摘要：通常在使用爬虫时，爬取到网上的文章都是各式各样的格式处理起来比较麻烦，这里我们使用Apache-Tika来处理Word格式的文章，如下：package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;im... 阅读全文

posted @ 2015-11-18 19:58 孟尧阅读(2864) 评论(0) 推荐(0)

Apache-Tika解析JPEG文档

摘要：通常在使用爬虫时，爬取到网上的文章都是各式各样的格式处理起来比较麻烦，这里我们使用Apache-Tika来处理JPEG格式的图片，如下：package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;im... 阅读全文

posted @ 2015-11-18 19:45 孟尧阅读(1710) 评论(0) 推荐(0)

Apache-Tika解析HTML文档

摘要：通常在使用爬虫时，爬取到网上的文章都是各式各样的格式处理起来比较麻烦，这里我们使用Apache-Tika来处理HTML格式的文章，如下：package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;im... 阅读全文

posted @ 2015-11-18 19:33 孟尧阅读(2371) 评论(0) 推荐(0)

Apache-Tika解析XML文档

摘要：通常在使用爬虫时，爬取到网上的文章都是各式各样的格式处理起来比较麻烦，这里我们使用Apache-Tika来处理XML格式的文章，如下：package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;imp... 阅读全文

posted @ 2015-11-18 19:28 孟尧阅读(734) 评论(0) 推荐(0)

Apache-Tika解析Excell文档

摘要：通常在使用爬虫时，爬取到网上的文章都是各式各样的格式处理起来比较麻烦，这里我们使用Apache-Tika来处理Excell格式的文章，如下：package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;... 阅读全文

posted @ 2015-11-18 19:19 孟尧阅读(1673) 评论(0) 推荐(0)

孟尧

前途宽广，贵在坚持

公告