Eclipse 6.0.0 + Heritrix 1.12.1 的配置
摘要:从控制台配置Heritrix,使之能运行之后,完成获取信息的基本功能是没问题的。但是Heritrix默认的功能,比较类似于离线浏览器,把所有的信息都抓下来了。尽管Heritrix提供有可定制的处理链,但可能不够灵活,有时需要自己定制Crawler类调试运行。于是开始找在Eclipse中配置的方法。网上搜到的配置方法有些很繁琐,有的不完整,看着头很大。所以对比了下他们的描述,想了想照着做总是出现错误...
阅读全文
posted @
2009-01-27 01:44
何婧
阅读(1804)
推荐(0)
终于让一个Heritrix能爬了……不用Eclipse的简单配置方法
摘要:几天前配置Eclipse +Heritrix,配了一天头晕脑胀,也没能让它跑起来。确切的说,WebUI登陆就不成功。中间几天想起来就倒胃,于是扔那不睬它忙了些其他的事情。春节晚会的全程都在翻论坛查银行卡和宿舍等资料,差点忘了零点之前回复大量的祝福短信,我真是勤奋……今天大年初一没事做,上午爬起来看看论坛和JUNJIN的反转剧,调节了调节心情,下午接着折腾Heritrix...
阅读全文
posted @
2009-01-26 18:30
何婧
阅读(4714)
推荐(0)
使用POI来处理Excel文件格式
摘要:使用的POI包是poi-2.5.1-final-20040804.jar,用讯雷搜的。也可以到http://apache.justdn.org/jakarta/poi/下载src。加入到Java Build Path中。把Excel的内容抽取出来,输出到控制台的代码:[代码]
阅读全文
posted @
2009-01-20 16:27
何婧
阅读(1194)
推荐(1)
使用PDFBox处理PDF文档
摘要:前面的介绍文本是转载的,实际上和一本书上的内容大致相同(除了代码)。 1、使用PDFBox处理PDF文档 PDF全称Portable Document Format,是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关,可以在Windows、Unix或Mac OS等操作系统上通用。 PDF文件格式将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。如果要抽取其中...
阅读全文
posted @
2009-01-19 16:06
何婧
阅读(33799)
推荐(4)
java通过jacob调用word
摘要:word或Excel程序是以一种COM组件的形式存在的。如果能从Java中调用word的COM组件,就能够使用它的方法获取Word文档中的文本信息,目前网上也有很多提供这种操作的工具。使用jacob前应确保本机安装有Word的应用程序,否则无法建立Java-COM桥,进而无法解析。jacob的下载地址为http://sourceforge.net/project/showfiles.php?gro...
阅读全文
posted @
2009-01-19 14:38
何婧
阅读(2650)
推荐(0)
发一个Lucene 2.4.0对搜索结果高亮显示的代码
摘要:使用高亮显示时,需要单独引入lucene-highlighter-2.4.0.jar。这个jar包在目录lucene-2.4.0\contrib\highlighter中,把它复制到项目的bin文件夹,并在Java Build Path中添加其引用。可以参考下面几个网页:http://www.javaeye.com/wiki/topic/73588http://hi.baidu.com/lotus...
阅读全文
posted @
2009-01-18 18:44
何婧
阅读(2553)
推荐(1)
Unknown encoding for 'UniGB-UCS2-H'
摘要:在txt里写入一些测试文本,用Adobe Acrobat 7.0 Professional里的create PDF生成的PDF文档。然后用pdfbox读取测试,编译时崩出错误提示java.io.IOException: Unknown encoding for 'UniGB-UCS2-H'。而用pdfbox读取别的中文文档的话,编译就正常了。无语了。(实际上把txt转成PDF本来的显示效果就不正常...
阅读全文
posted @
2009-01-14 15:06
何婧
阅读(3034)
推荐(0)
我只是想用Sort排个序……为什么一定跟我要四个参数……不厚道……
摘要:本想把Sort类的对象作参数,传给IndexSearcher类的search方法,对查询结果按多个Field排序。但是发现Lucene 2.4.0的Searcher类API中,下面两个方法都被Deprecated了: Hits search(Query query, Sort sort) ...
阅读全文
posted @
2009-01-12 17:07
何婧
阅读(560)
推荐(0)
用Lucene写的一个HelloWorld
摘要:下面是今天初次看的一点Lucene,整理出笔记备忘~~ 下载这个文件lucene-2.4.0.zip到任意目录并解压,得到lucene-core-2.4.0.jar。 这里有Lucene的API:http://hudson.zones.apache.org/hudson/job/Lucene-trunk/javadoc//index.html 注意:Lucene 2.0以上使用的JDK版本不能...
阅读全文
posted @
2009-01-08 21:45
何婧
阅读(878)
推荐(1)
Lucene 2.4.0 一些过期方法的解决方案
摘要:Lucene 2.4.0 是2008年10月8日发布的版本,许多之前版本中的方法和类被声明为过期(@deprecated),且某些方法和类被声明在3.0引擎中将被删除。以下是常用的几个方法和类,在网上搜索到的替换为新版本的方法。 1 IndexWriter 的构造器 IndexWriter writer = new IndexWriter(indexPath, getAnalyzer(), tr...
阅读全文
posted @
2009-01-08 16:13
何婧
阅读(847)
推荐(0)