Lucene学习总结之一:全文检索的基本原理
摘要:一、总论根据http://lucene.apache.org/java/docs/index.html定义:Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。当然有的地方还会提到第三种,半结构化数据,如XML,HTML等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。非结构化数据
阅读全文
posted @
2013-05-31 17:01
混吃等死的猪
阅读(134)
推荐(0)
lucene的增量更新
摘要:对于每天更新的索引,可以采用增量更新,例子如下:例如:pid mondayCv123 23000第二天pid mondayCv tuesdayCv123 23000 45000package com.sachie.lucene.test;import java.io.BufferedReader;import java.io.File;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;...
阅读全文
posted @
2013-05-30 18:07
混吃等死的猪
阅读(562)
推荐(0)
中文自动分词技术
摘要:1、什么是自动分词技术在搜索中,我们常把搜索项作为一个句子提取出来当做特征项,如果提取出来的是英文,那么单词和单词之间用空格将句子拆分。而在中文文本中,词与词之间没有天然的分隔符,中文词汇大多是由两个或两个以上的汉字组成的,并且语句是连续书写的。这就要求在对中文文本进行自动分析前,先将整句切割成小的词汇单元,即中文分词。用具体的例子来说明,就是如何把“我的爸爸是李刚”这样连...
阅读全文
posted @
2010-10-29 12:44
混吃等死的猪
阅读(1939)
推荐(0)