Spiga

随笔档案 - 2009年10月

Searcharoo源码学习日志(二)

2009-10-08 02:19 by Yin.P, 1561 visits, 网摘, 收藏, 编辑
摘要:Searcharoo第二版相对第一版做了很多改动,如将之前的基于当前站点的文件索引换成了基于Internet的网络爬行器、新增了HtmlDocument对象作为中间文档对象用于暂存文档信息、增加对已访问页面的判断处理、新增使用HttpWebRequest对象去获取Internet文档内容、新增去除页面内容中的脚本块样式块等功能。 阅读全文

Searcharoo源码学习日志(一)

2009-10-06 18:10 by Yin.P, 2071 visits, 网摘, 收藏, 编辑
摘要:Searcharoo源码学习系列文章将会对这套开源搜索引擎的各个版本(主要是前几个版本,因为关于搜索技术的变化更新主要体现在前几个版本,后面的版本主要是一些扩展和展现方式的改进)源代码进行简单的介绍,包括组成这个搜索引擎的各部分及其在各版本中的发展过程。从上一篇文章中我们可以大概了解到Searcharoo是一套比较简单且易于上手学习的搜索引擎开源项目。从这篇文章开始我们就要从细节来学习这套搜索引擎源代码。 阅读全文