摘要: 在配置好heritrix后,可以输入形如:http://localhost:8080的服务器IE地址,进入UI界面登陆。则可开始建立网页爬行抓取任务。1.首先启动Heritrix后台监听程序,然后登录WebUI.成功登录WebUI后,初始界面如图所示:2. 选择上面一排导航菜单中的“Jobs”链接,开始建立一个抓取任务,如图所示:3.创建一个Job(Create New Job)有四种选择方式:Based On Existing Job、Based On a recovery、Based On a profile、With Default。我们选择第三种方式,点击“Based On a pro 阅读全文
posted @ 2012-12-22 22:12 烤德 阅读(3510) 评论(0) 推荐(0)
摘要: import jeasy.analysis.MMAnalyzer;public class JEtest { public static void main(String[] args) { String test="姚明和麦克格雷迪是火箭队的核心,不过在" + "今年的NBA常规赛中,麦克格雷迪的表现并不是很好"; MMAnalyzer analyzer=new MMAnalyzer(); MMAnalyzer.addWord("麦克格雷迪"); //提供添加词组的接口 try{ System.out.print(analyzer. 阅读全文
posted @ 2012-12-22 22:10 烤德 阅读(442) 评论(0) 推荐(0)
摘要: 1 import java.io.IOException; 2 import java.util.BitSet; 3 4 import org.apache.lucene.analysis.standard.StandardAnalyzer; 5 import org.apache.lucene.document.Document; 6 import org.apache.lucene.document.Field; 7 import org.apache.lucene.index.IndexReader; 8 import org.apache.lucene.index.... 阅读全文
posted @ 2012-12-22 22:06 烤德 阅读(988) 评论(0) 推荐(0)
摘要: 1 /* 2 * 正则表达式查询 3 */ 4 5 6 import java.io.IOException; 7 8 import org.apache.lucene.analysis.standard.StandardAnalyzer; 9 import org.apache.lucene.document.Document;10 import org.apache.lucene.document.Field;11 import org.apache.lucene.index.IndexWriter;12 import org.apache.lucene.index.Term;... 阅读全文
posted @ 2012-12-22 22:04 烤德 阅读(2475) 评论(0) 推荐(0)
摘要: /** * 测试索引 * @author Administrator * */import java.io.*;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.index.IndexReader;import org.apache.lucene.index.IndexWriter;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apac 阅读全文
posted @ 2012-12-22 22:01 烤德 阅读(831) 评论(1) 推荐(0)
摘要: 具体的原因分析见“Heritrix的Modules界面不能改变选择项的问题”原因:找相关的Options文件是在Modules相对路径下的,而Modules目录是在 conf目录下。Classpath没有找到需要的文件目录。解决方法:在Eclipse里面设置conf为Classpath( 在Eclipse的Run Dialog中,Classpath标签Table,选中User Entries,然后右边会有Advance选项,选Add External Folder,把你的Conf加进去就行了)。再试,在Modules页面中的功能正常了。这里只贴图解决办法,原谅我的理解能力,我看那篇日志好久才明 阅读全文
posted @ 2012-12-22 21:52 烤德 阅读(266) 评论(0) 推荐(0)
摘要: 在其他帖子上看到有Eclipse 配置 Heritrix 1.14.4的文章,这里有很多内容是引用自那里。如http://extjs2.javaeye.com/blog/699751不过这里对配置有一些进一步的说明。 Eclipse 配置 Heritrix 1.14.4的配置过程如下: 1. 首先从http://sourceforge.net/projects/archive-crawler/ 中下载 heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip(Windows) 2. 在Eclipse 中创建一个java project的工程(可以命名为Heri 阅读全文
posted @ 2012-12-22 20:07 烤德 阅读(771) 评论(0) 推荐(1)
摘要: 一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等。所访问的这些页面 有的仅仅是一些普通的页面,有的需要用户登录后方可使用,或者需要认证以及是一些通过加密方式传输,例如HTTPS。目前我们使用的浏览器处理这些情况都 不会构成问题。不过你可能在某些时候需要通过程序来访问这样的一些页面,比如从别人的网页中“偷”一些数据;利用某些站点提供的页面来完成某种功能,例如 说我们想知道某个手机号码的归属地而我们自己又没有这样的数据,因此只好借助其他公司已有的网站来完成这个功能,这个时候我们需要向网页提交手机号码并从 返回的页面中解析出我们 阅读全文
posted @ 2012-12-22 20:01 烤德 阅读(3232) 评论(0) 推荐(0)
摘要: 1,什么是antant是构建工具2,什么是构建概念到处可查到,形象来说,你要把代码从某个地方拿来,编译,再拷贝到某个地方去等等操作,当然不仅与此,但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的,所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多,可能你用了很久,你仍然不知道它能有多少功能。当你自己开发一些ant插件的时候,你会发现它更多的功能。4,ant的兄弟makeant做的很多事情,大部分是曾经有一个叫make的所做的,不过对象不同,make更多应用于c/c++ ,ant更多应用于Java。当然 阅读全文
posted @ 2012-12-22 19:59 烤德 阅读(331) 评论(0) 推荐(0)
摘要: 其他外类对jTextArea进行实时更新显示时,首先要将jTextArea设置为public static,比如有主窗口Frame,其带有一个jTextArea,要把Data所获取的数据实时更新到Frame的jTextArea中。则:假定主窗口Frame类为:classFrame extends jFrame implements ……{ //设置jTextAreapublic staticjTextAreajtextarea;……publicFrame (){//构造函数jtextarea=new jtTextarea();……ShowData();//假设创建主窗体时,就要获取,并显示数. 阅读全文
posted @ 2012-12-22 19:56 烤德 阅读(1351) 评论(0) 推荐(0)
摘要: 来自:http://www.54xue.com/w/35/n-6035.htmlJava鼠标右键弹出菜单,该例子为JTextArea添加了右键弹出式菜单,实现了复制、粘贴以及剪切功能。import java.awt.datatransfer.Clipboard;import java.awt.datatransfer.DataFlavor;import java.awt.datatransfer.Transferable;import java.awt.event.ActionEvent;import java.awt.event.ActionListener;import java.awt. 阅读全文
posted @ 2012-12-22 19:55 烤德 阅读(1652) 评论(0) 推荐(1)
摘要: NetBeans乱码问题开发环境:首先指明的是IDE为NetBeans 7.0中;情况背景:在eclipse中的程序复制到NetBeans 中,代码区中的中文变乱码;其次,即使在程序中修改后的中文正确显示,但将文本输出至纯文本文件时,依然出现乱码,同样的程序,在eclipse中输出正常。问题原因:eclipse默认代码编辑编码为GBK,而NetBeans默认为UTF-8。其他建议:有人指出,若是在Windows系统中,则修改NetBeans 安装目录下/etc/netbeans.conf下的,在变量netbeans_default_options中添加(或者修改)“-J-Dfile.encod 阅读全文
posted @ 2012-12-22 19:51 烤德 阅读(309) 评论(0) 推荐(0)
摘要: java中选择使用Collection类的技巧JDK API中定义了多种Collection类,但实际上使用的困难在于如何根据特定的需求选择适宜的类,在此,描述在选择Collection类时的一些技巧:1.如果不是局限于JDK1.1.X版本,则应该使用Collection结构中的通用实现类,而不是使用像Vector、Stack、Hashtable等基本类。2.对于有序的Collection结构(有序,指已经拥有排列顺序的,而你不希望这个顺序被打乱的结构)应该使用ArrayList类,而不是Vector。3.对于无序的Collection结构(即,数据顺序随便安排的结构)建议使用HashSet, 阅读全文
posted @ 2012-12-22 19:50 烤德 阅读(210) 评论(0) 推荐(0)