2006-08-20 01:06 by cppguy, 1489 visits, 网摘, 编辑
摘要:垂直搜索是当前的热门技术,应用开源项目构建适合自己需要的搜索引擎
阅读全文
2006-08-27 14:23 by cppguy, 1193 visits, 网摘, 编辑
摘要:已经应用lucene.net建立了全文索引,接下来演示用它来对关键字进行搜索
阅读全文
2006-08-26 18:00 by cppguy, 2863 visits, 网摘, 编辑
摘要:Lucene,最初是Doug Cutting的一个个人项目,后来进入了开源社区,并得到了广泛的发展,此人也同为Nutch的创造者.lucene.net是lucene的c#实现版,我们可以在.net中建立不同的搜索引擎
阅读全文
2006-10-20 00:30 by cppguy, 315 visits, 网摘, 编辑
摘要:Nutch中metadata的分析,以及.net实现的建议
阅读全文
2006-10-12 17:38 by cppguy, 179 visits, 网摘, 编辑
摘要:一: 问:我在linux(FC3)上安装了Nutch 0.8.1,虚拟机环境是:java 1.5.0_07.当我运行crawl命令的时候,出现了以下错误: 2006-10-11 15:39:16,234 FATAL api.RobotRulesParser - Agent we advertise(null) not listed first in 'http.robots.agents' pro...
阅读全文
2006-08-31 01:22 by cppguy, 379 visits, 网摘, 编辑
摘要:Nutch 0.8在2006.7.25在其官方网站上正式发布,此版本在以前的基础上做了很大的改进.因此在进行爬行的时候不能完全按照各版本的方法进行.本人已经成功安装和使用,具体使用如下:辅助软件1、Java 1.4.x ;2、Apache's Tomcat 4.x ;3、Cygwin ; 使用 1、新建环境变量或添加环境变量新值PATH= F:\nutch-0.8\bin;(NUTCH-0.8的安...
阅读全文
2007-07-30 23:10 by cppguy, 290 visits, 网摘, 编辑
摘要:client.java为Nutch提供这样的功能:获取Ftp服务器上的文件列表,并能提供能从服务器上下传文件的功能。
这个类Client(继承自ftp)考虑到了与服务器交互的所有的底层细节,并且提供了方便的高层接口
阅读全文
2007-07-29 01:37 by cppguy, 648 visits, 网摘, 编辑
摘要:package org.uranus.tools.net.ftp;import java.io.InputStream; import java.util.Properties;import org.apache.commons.net.ftp.FTPClient; import org.apache.commons.net.ftp.FTPClientConfig; import org.apac...
阅读全文
2007-07-29 01:33 by cppguy, 906 visits, 网摘, 编辑
摘要:项目需要实现从某银行的ftp服务器上定时下载数据文件的模块.于是使用apache的commons-net包实现ftp服务器的链接中间使用了commons的io和Oro包.Io包封装了一些使用的方法,eg:安全的关闭各种流.根据文件的长度得到文件的方便识别的大小(k,m.g).还有一些其它使用的方法,读者可以下载后自行研究..commons-net包封装了一些常见的网络包:ftp,smtp,pop3...
阅读全文
2007-07-29 00:25 by cppguy, 830 visits, 网摘, 编辑
摘要:Nutch是一款非常优秀的开源搜索引擎,剔除lucnene的全文检索工具。Nutch的爬虫也是构架优秀的抓取工具。这里想对nutch的源码进行分析。这样对二次开发或者插件的再开发都会有所帮助。
阅读全文
2006-10-22 21:40 by cppguy, 706 visits, 网摘, 编辑
摘要:我们在SourceForge(最大的开源社区)上申请的Nutch.net项目经过验证审批了,希望大家有机会能参与进来网址http://sourceforge.net/projects/dotnutch
阅读全文
2006-08-28 23:14 by cppguy, 415 visits, 网摘, 编辑
摘要: 介绍Nutch(1)(翻译)[原创] 原文地址:http://today.java.net/pub/a/today/2006/01/10/intro... Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引. 抓取程序是被Nutch的抓取工具驱动的。这是一组工具,用来建立...
阅读全文