代码改变世界

随笔分类 -  搜索技术

Searcharoo源码学习日志(二)

2009-10-08 02:19 by Yin.P, 1860 阅读, 收藏, 编辑
摘要: Searcharoo第二版相对第一版做了很多改动,如将之前的基于当前站点的文件索引换成了基于Internet的网络爬行器、新增了HtmlDocument对象作为中间文档对象用于暂存文档信息、增加对已访问页面的判断处理、新增使用HttpWebRequest对象去获取Internet文档内容、新增去除页面内容中的脚本块样式块等功能。 阅读全文

Searcharoo源码学习日志(一)

2009-10-06 18:10 by Yin.P, 2505 阅读, 收藏, 编辑
摘要: Searcharoo源码学习系列文章将会对这套开源搜索引擎的各个版本(主要是前几个版本,因为关于搜索技术的变化更新主要体现在前几个版本,后面的版本主要是一些扩展和展现方式的改进)源代码进行简单的介绍,包括组成这个搜索引擎的各部分及其在各版本中的发展过程。从上一篇文章中我们可以大概了解到Searcharoo是一套比较简单且易于上手学习的搜索引擎开源项目。从这篇文章开始我们就要从细节来学习这套搜索引擎源代码。 阅读全文

Searcharoo —— 一个适合学习研究的搜索引擎项目

2009-09-29 21:49 by Yin.P, 1256 阅读, 收藏, 编辑
摘要: 这次我要介绍一套开源的搜索引擎项目,名字为Searcharoo,这个项目来自CodeProject,同时也有自己的一个网站(http://www.searcharoo.net/),在网站中可以下载其源码也可以看到每个版本间演化的详细介绍。这套搜索引擎不像Lucene和Nutch那样复杂,代码少很多,因此我认为它非常适合用于初学搜索技术。 阅读全文

基于Lucene.NET的文件搜索工具

2009-06-16 00:34 by Yin.P, 3411 阅读, 收藏, 编辑
摘要: 本文要介绍的是利用Lucene.NET写的一个简单的文档搜索器。实现最基本的索引和搜索功能。编写这个小工具的初衷之一是因为我收集的专业资料文档越来越多,有时想要在计算机中找到自己想要的文档却不知道自己之前把那些资料放到了什么地方,而且现在的硬盘越来越大,目录结构也越来越复杂,常常要花很多时间去查找自己想要的资料。有了这个搜索工具,只要定期重新建立索引,就可以方便快速地找到自己想要的东西,其次是因为正好这段时间想花时间了解一下Lucene.NET这个开源库学习一下搜索引擎的原理 阅读全文