需要整理研究的搜索引擎技术点(目录,无实际价值)

中文分词部分
1,断句与分块
2,字符类型设计与识别(中文,英文,数字,半角,全角).
3,从已断句子中分析提取字符类型相同的连续字串.
4,字典类设计
5,分词算法设计
  5.1,数字英文分词算法设计
  5.2,中文分词算法设计

分词应用部分
1,标签抽取
2,文本相关性与文本分类
 2.1,SVM算法


Web Spider开发
1,网页编码自动识别

2,Url去重算法
 2.1,Bloomfilter算法
 2.2,CRC算法

3,Spider的抓取流程与架构
 3.1,抓取页面
 3.2,页面落地
 3.3,通知队列
 3.4,分析提取有效信息
 3.5,失效信息清理

搜索引擎应用开发
1,中文相似词识别
  1.1,音似词识别
  1.2,形似词识别
  1.3,义似词识别

2,Lucene.net索引技术
  2.1,分词器ChineseAnalyzer设计
  2.2,索引优化技术
  2.3,索引分布存储
  2.4,索引压缩存储
 
3,Lucene.net搜索技术
  3.1,分类搜索
  3.2,排序搜索
  3.3,基于应用需求改进Lucene的默认排序算法
  3.4,搜索性能优化
    Singleton模式的Analyzer
    Cache下的Analyzer
    搜索结果的Cache(基于MemCache)

4,IFilter

posted @ 2007-03-01 20:58 kwklover 阅读(...) 评论(...) 编辑 收藏