代码改变世界

随笔分类 -  垂直搜索

使用 Apache Solr 实现更加灵巧的搜索

2007-08-05 23:59 by cppguy, 1751 阅读, 收藏, 编辑
摘要: slor,崭新的搜索引擎 阅读全文

client.java(org\apache\nutch\protocol\ftp)

2007-07-30 23:10 by cppguy, 1388 阅读, 收藏, 编辑
摘要: client.java为Nutch提供这样的功能:获取Ftp服务器上的文件列表,并能提供能从服务器上下传文件的功能。 这个类Client(继承自ftp)考虑到了与服务器交互的所有的底层细节,并且提供了方便的高层接口 阅读全文

基于apache组织的commonNet开源组件实现ftp客户端的上传功能

2007-07-29 01:37 by cppguy, 1546 阅读, 收藏, 编辑
摘要: package org.uranus.tools.net.ftp;import java.io.InputStream; import java.util.Properties;import org.apache.commons.net.ftp.FTPClient; import org.apache.commons.net.ftp.FTPClientConfig; import org.apac... 阅读全文

使用Commons-net包实现ftp服务器的访问(转)

2007-07-29 01:33 by cppguy, 2362 阅读, 收藏, 编辑
摘要: 项目需要实现从某银行的ftp服务器上定时下载数据文件的模块.于是使用apache的commons-net包实现ftp服务器的链接中间使用了commons的io和Oro包.Io包封装了一些使用的方法,eg:安全的关闭各种流.根据文件的长度得到文件的方便识别的大小(k,m.g).还有一些其它使用的方法,读者可以下载后自行研究..commons-net包封装了一些常见的网络包:ftp,smtp,pop3... 阅读全文

Nutch代码分析

2007-07-29 00:25 by cppguy, 1459 阅读, 收藏, 编辑
摘要: Nutch是一款非常优秀的开源搜索引擎,剔除lucnene的全文检索工具。Nutch的爬虫也是构架优秀的抓取工具。这里想对nutch的源码进行分析。这样对二次开发或者插件的再开发都会有所帮助。 阅读全文

Plugin中心(翻译)[原创]

2006-10-22 21:44 by cppguy, 1296 阅读, 收藏, 编辑
摘要: Nutch的plugin机理 阅读全文

SourceForge上的Nutch.net开源项目[原创]

2006-10-22 21:40 by cppguy, 1609 阅读, 收藏, 编辑
摘要: 努力中 阅读全文

Nutch中creativecommons插件的分析

2006-10-20 00:47 by cppguy, 1017 阅读, 收藏, 编辑
摘要: 分析Nutch中一个很有用的插件 阅读全文

Nutch中metadata的分析

2006-10-20 00:30 by cppguy, 859 阅读, 收藏, 编辑
摘要: Nutch中metadata的分析,以及.net实现的建议 阅读全文

有关搜索引擎中索引问题---Nutch look and feel(转贴)

2006-10-20 00:24 by cppguy, 1260 阅读, 收藏, 编辑
摘要: 文章不错,对Nutch有所了解了 阅读全文

Nutch中Fetcher的分析

2006-10-19 23:23 by cppguy, 489 阅读, 收藏, 编辑
摘要: todo 阅读全文

UTF8的认识(转载)

2006-10-19 23:15 by cppguy, 491 阅读, 收藏, 编辑
摘要: UTF-8是一种在web里很常用的编码方式 阅读全文

CcSearch的介绍

2006-10-19 22:04 by cppguy, 617 阅读, 收藏, 编辑
摘要: cc授权机制和搜索引擎 阅读全文

Nutch最近的邮件列表

2006-10-12 17:38 by cppguy, 447 阅读, 收藏, 编辑
摘要: 一: 问:我在linux(FC3)上安装了Nutch 0.8.1,虚拟机环境是:java 1.5.0_07.当我运行crawl命令的时候,出现了以下错误: 2006-10-11 15:39:16,234 FATAL api.RobotRulesParser - Agent we advertise(null) not listed first in 'http.robots.agents' pro... 阅读全文

Nutch 0.8在windows下使用的说明

2006-08-31 01:22 by cppguy, 665 阅读, 收藏, 编辑
摘要: Nutch 0.8在2006.7.25在其官方网站上正式发布,此版本在以前的基础上做了很大的改进.因此在进行爬行的时候不能完全按照各版本的方法进行.本人已经成功安装和使用,具体使用如下:辅助软件1、Java 1.4.x ;2、Apache's Tomcat 4.x ;3、Cygwin ; 使用 1、新建环境变量或添加环境变量新值PATH= F:\nutch-0.8\bin;(NUTCH-0.8的安... 阅读全文

剖析NUTCH爬虫[转贴]

2006-08-31 00:37 by cppguy, 1721 阅读, 收藏, 编辑
摘要: 针对整个爬行抓取过程做了简要的分析 阅读全文

介绍Nutch(翻译)

2006-08-28 23:14 by cppguy, 1340 阅读, 收藏, 编辑
摘要:  介绍Nutch(1)(翻译)[原创] 原文地址:http://today.java.net/pub/a/today/2006/01/10/intro... Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引. 抓取程序是被Nutch的抓取工具驱动的。这是一组工具,用来建立... 阅读全文

应用lucene.net进行搜索测试

2006-08-27 14:23 by cppguy, 2087 阅读, 收藏, 编辑
摘要: 已经应用lucene.net建立了全文索引,接下来演示用它来对关键字进行搜索 阅读全文

应用Lucene.net建立全文索引引擎

2006-08-26 18:00 by cppguy, 7479 阅读, 收藏, 编辑
摘要: Lucene,最初是Doug Cutting的一个个人项目,后来进入了开源社区,并得到了广泛的发展,此人也同为Nutch的创造者.lucene.net是lucene的c#实现版,我们可以在.net中建立不同的搜索引擎 阅读全文

Nutch的安装

2006-08-20 21:24 by cppguy, 1068 阅读, 收藏, 编辑
摘要: 集合了一些nutch的开发资源 阅读全文