代码改变世界

随笔档案-2009年10月

Searcharoo源码学习日志(二)

2009-10-08 02:19 by Yin.P, 1866 阅读, 收藏,
摘要: Searcharoo第二版相对第一版做了很多改动,如将之前的基于当前站点的文件索引换成了基于Internet的网络爬行器、新增了HtmlDocument对象作为中间文档对象用于暂存文档信息、增加对已访问页面的判断处理、新增使用HttpWebRequest对象去获取Internet文档内容、新增去除页面内容中的脚本块样式块等功能。 阅读全文

Searcharoo源码学习日志(一)

2009-10-06 18:10 by Yin.P, 2522 阅读, 收藏,
摘要: Searcharoo源码学习系列文章将会对这套开源搜索引擎的各个版本(主要是前几个版本,因为关于搜索技术的变化更新主要体现在前几个版本,后面的版本主要是一些扩展和展现方式的改进)源代码进行简单的介绍,包括组成这个搜索引擎的各部分及其在各版本中的发展过程。从上一篇文章中我们可以大概了解到Searcharoo是一套比较简单且易于上手学习的搜索引擎开源项目。从这篇文章开始我们就要从细节来学习这套搜索引擎源代码。 阅读全文