DotLucene的一些知识(不完全总结)

DotLucene是什么?
搜索引擎的种类, 以及常见搜索算法,DotLucene是基于什么算法实现的

索引的基础概念和实现
搜索的基础概念和实现
Lucene的高级技巧

DotLucene的分析器
中文分词

==================================
搜索引擎一般来讲,可以分为两大类:全文检索引擎(FullText Search Engine)和分类目录(Directory)
全文检索:指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该
词在文章中出现的次数和位置。当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。
全文检索的方法主要分为按字检索和按词检索两种
  按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中词与字是合一的,而中文字和词分别很大。
  按词检索是指对文章的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文是以空白切分词,而中文则不同,中文需要切分字词,以达到按中文语义单位建立索引的目的,需要分词方面的的技术。
  Lucene是一个全文检索的开源工具开发包,其实就是实现检索的API的集合。最初由JAVA实现。
现已有多个由不同语言实现的版本,DotLucene就用.net实现的Lucene.
  DotLucene的索引方式属于"倒排索引",倒排索引,简单来说,就是为了实现我们的一般"那些文章有这些关键字"到"这些关键字那些文章有",所以一般倒排索引需要实现一个"词典"和"出现情况"的倒排表。为什么说是倒排呢?
  DotLucene的一些基础概念:
 索引(index):文挡序列的集合;
 文挡(document):域序列的集合;
 域(field):项序列的集合;
 项(term):一个字串;
存在于不同域中的同一个字串被认为是不同的项。因此项实际是用一对字串表示的,第一个字串是域名,第二个是域中的字串。
http://lucene.cnblogs.com/archive/2004/12/20/79804.html

搜索一些的基础知识
http://kwklover.cnblogs.com/articles/424343.html

====================================
http://www.lietu.com/doc/index.htm
利用Lucene.net搜索引擎进行多条件搜索的做法
http://lucene.cnblogs.com/archive/2005/02/21/107033.html

posted @ 2006-06-23 23:32  kwklover  阅读(1609)  评论(4编辑  收藏  举报