搜索引擎 - 随笔分类 - 混吃等死的猪

Lucene学习总结之一：全文检索的基本原理

摘要：一、总论根据http://lucene.apache.org/java/docs/index.html定义：Lucene是一个高效的，基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢？这要从我们生活中的数据说起。我们生活中的数据总体分为两种：结构化数据和非结构化数据。结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。当然有的地方还会提到第三种，半结构化数据，如XML，HTML等，当根据需要可按结构化数据来处理，也可抽取出纯文本按非结构化数据来处理。非结构化数据阅读全文

posted @ 2013-05-31 17:01 混吃等死的猪阅读(134) 评论(0) 推荐(0)

lucene的增量更新

摘要：对于每天更新的索引，可以采用增量更新，例子如下：例如：pid mondayCv123 23000第二天pid mondayCv tuesdayCv123 23000 45000package com.sachie.lucene.test;import java.io.BufferedReader;import java.io.File;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;... 阅读全文

posted @ 2013-05-30 18:07 混吃等死的猪阅读(562) 评论(0) 推荐(0)

中文自动分词技术

摘要：1、什么是自动分词技术在搜索中，我们常把搜索项作为一个句子提取出来当做特征项，如果提取出来的是英文，那么单词和单词之间用空格将句子拆分。而在中文文本中，词与词之间没有天然的分隔符，中文词汇大多是由两个或两个以上的汉字组成的，并且语句是连续书写的。这就要求在对中文文本进行自动分析前，先将整句切割成小的词汇单元，即中文分词。用具体的例子来说明，就是如何把“我的爸爸是李刚”这样连... 阅读全文

posted @ 2010-10-29 12:44 混吃等死的猪阅读(1939) 评论(0) 推荐(0)

随笔分类 - 搜索引擎