Spiga

随笔分类 -垂直搜索

ajax+Lucene+nutch构造垂直搜索(1)

2006-08-20 01:06 by cppguy, 1489 visits, 网摘, 编辑
摘要:垂直搜索是当前的热门技术,应用开源项目构建适合自己需要的搜索引擎 阅读全文

初战luncene.net(1)

2006-08-20 16:08 by cppguy, 316 visits, 网摘, 编辑
摘要:介绍lucene.net的最基本的用法 阅读全文

剖析NUTCH爬虫[转贴]

2006-08-31 00:37 by cppguy, 521 visits, 网摘, 编辑
摘要:针对整个爬行抓取过程做了简要的分析 阅读全文

应用lucene.net进行搜索测试

2006-08-27 14:23 by cppguy, 1193 visits, 网摘, 编辑
摘要:已经应用lucene.net建立了全文索引,接下来演示用它来对关键字进行搜索 阅读全文

应用Lucene.net建立全文索引引擎

2006-08-26 18:00 by cppguy, 2863 visits, 网摘, 编辑
摘要:Lucene,最初是Doug Cutting的一个个人项目,后来进入了开源社区,并得到了广泛的发展,此人也同为Nutch的创造者.lucene.net是lucene的c#实现版,我们可以在.net中建立不同的搜索引擎 阅读全文

Nutch的安装

2006-08-20 21:24 by cppguy, 502 visits, 网摘, 编辑
摘要:集合了一些nutch的开发资源 阅读全文

Nutch中creativecommons插件的分析

2006-10-20 00:47 by cppguy, 446 visits, 网摘, 编辑
摘要:分析Nutch中一个很有用的插件 阅读全文

Nutch中metadata的分析

2006-10-20 00:30 by cppguy, 315 visits, 网摘, 编辑
摘要:Nutch中metadata的分析,以及.net实现的建议 阅读全文

有关搜索引擎中索引问题---Nutch look and feel(转贴)

2006-10-20 00:24 by cppguy, 735 visits, 网摘, 编辑
摘要:文章不错,对Nutch有所了解了 阅读全文

Nutch中Fetcher的分析

2006-10-19 23:23 by cppguy, 271 visits, 网摘, 编辑

UTF8的认识(转载)

2006-10-19 23:15 by cppguy, 123 visits, 网摘, 编辑
摘要:UTF-8是一种在web里很常用的编码方式 阅读全文

CcSearch的介绍

2006-10-19 22:04 by cppguy, 147 visits, 网摘, 编辑
摘要:cc授权机制和搜索引擎 阅读全文

Nutch最近的邮件列表

2006-10-12 17:38 by cppguy, 179 visits, 网摘, 编辑
摘要:一: 问:我在linux(FC3)上安装了Nutch 0.8.1,虚拟机环境是:java 1.5.0_07.当我运行crawl命令的时候,出现了以下错误: 2006-10-11 15:39:16,234 FATAL api.RobotRulesParser - Agent we advertise(null) not listed first in 'http.robots.agents' pro... 阅读全文

Nutch 0.8在windows下使用的说明

2006-08-31 01:22 by cppguy, 379 visits, 网摘, 编辑
摘要:Nutch 0.8在2006.7.25在其官方网站上正式发布,此版本在以前的基础上做了很大的改进.因此在进行爬行的时候不能完全按照各版本的方法进行.本人已经成功安装和使用,具体使用如下:辅助软件1、Java 1.4.x ;2、Apache's Tomcat 4.x ;3、Cygwin ; 使用 1、新建环境变量或添加环境变量新值PATH= F:\nutch-0.8\bin;(NUTCH-0.8的安... 阅读全文

使用 Apache Solr 实现更加灵巧的搜索

2007-08-05 23:59 by cppguy, 634 visits, 网摘, 编辑
摘要:slor,崭新的搜索引擎 阅读全文

client.java(org\apache\nutch\protocol\ftp)

2007-07-30 23:10 by cppguy, 290 visits, 网摘, 编辑
摘要:client.java为Nutch提供这样的功能:获取Ftp服务器上的文件列表,并能提供能从服务器上下传文件的功能。
这个类Client(继承自ftp)考虑到了与服务器交互的所有的底层细节,并且提供了方便的高层接口 阅读全文

基于apache组织的commonNet开源组件实现ftp客户端的上传功能

2007-07-29 01:37 by cppguy, 648 visits, 网摘, 编辑
摘要:package org.uranus.tools.net.ftp;import java.io.InputStream; import java.util.Properties;import org.apache.commons.net.ftp.FTPClient; import org.apache.commons.net.ftp.FTPClientConfig; import org.apac... 阅读全文

使用Commons-net包实现ftp服务器的访问(转)

2007-07-29 01:33 by cppguy, 906 visits, 网摘, 编辑
摘要:项目需要实现从某银行的ftp服务器上定时下载数据文件的模块.于是使用apache的commons-net包实现ftp服务器的链接中间使用了commons的io和Oro包.Io包封装了一些使用的方法,eg:安全的关闭各种流.根据文件的长度得到文件的方便识别的大小(k,m.g).还有一些其它使用的方法,读者可以下载后自行研究..commons-net包封装了一些常见的网络包:ftp,smtp,pop3... 阅读全文

Nutch代码分析

2007-07-29 00:25 by cppguy, 830 visits, 网摘, 编辑
摘要:Nutch是一款非常优秀的开源搜索引擎,剔除lucnene的全文检索工具。Nutch的爬虫也是构架优秀的抓取工具。这里想对nutch的源码进行分析。这样对二次开发或者插件的再开发都会有所帮助。 阅读全文

Plugin中心(翻译)[原创]

2006-10-22 21:44 by cppguy, 589 visits, 网摘, 编辑
摘要:Nutch的plugin机理 阅读全文

SourceForge上的Nutch.net开源项目[原创]

2006-10-22 21:40 by cppguy, 706 visits, 网摘, 编辑
摘要:我们在SourceForge(最大的开源社区)上申请的Nutch.net项目经过验证审批了,希望大家有机会能参与进来网址http://sourceforge.net/projects/dotnutch 阅读全文

介绍Nutch(翻译)

2006-08-28 23:14 by cppguy, 415 visits, 网摘, 编辑
摘要: 介绍Nutch(1)(翻译)[原创] 原文地址:http://today.java.net/pub/a/today/2006/01/10/intro... Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引. 抓取程序是被Nutch的抓取工具驱动的。这是一组工具,用来建立... 阅读全文