pony

抄袭是一种美德

随笔分类 -  lucence

开源搜索引擎
Lucene使用与优化
摘要:1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 1.2 lucene能做什么 要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就 是你给它若干个字符串,然后它为你提供一个全文搜索服务,... 阅读全文

posted @ 2009-06-05 19:07 马森 阅读(353) 评论(0) 推荐(0)

多个TermQuery或一个MultiFieldQueryParser构建BooleanQuery多个域的检索学习实例代码
摘要:import java.io.IOException; import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.inde... 阅读全文

posted @ 2009-06-05 13:41 马森 阅读(755) 评论(0) 推荐(0)

lucene的中文分词器
摘要:ucene的中文分词器到现在还没有好的解决办法。下边介绍了两个lucene自己提供的分词器和一个javaeye上的网友实现的分词器。关于各个分词器的不同见代码中的print信息。直接运行得到console的输出结果更容易对比不同。packageanalyzer;importjava.io.Reader;importjava.io.StringReader;importorg.apache.luce... 阅读全文

posted @ 2009-05-21 14:14 马森 阅读(983) 评论(0) 推荐(0)

lucene的丰富的各种查询
摘要:lucene支持十分丰富的查询,这里列写其中一些比较常用的查询的用法。term查询、queryParser查询 ,booleanQuerypackagesearch;importorg.apache.lucene.analysis.standard.StandardAnalyzer;importorg.apache.lucene.index.Term;importorg.apache.lucene... 阅读全文

posted @ 2009-05-21 14:14 马森 阅读(747) 评论(0) 推荐(0)

lucene建立索引时候的用到的一些文档和目录操作
摘要:在前边的文章中多是用的添加一个document,这里介绍一下其它的文档操作1,按照编号删除publicvoiddeleteDoc(StringindexDir)throwsException{IndexReaderreader=IndexReader.open(indexDir);reader.delete(1);reader.close();}2,根据term来删除publicvoiddelet... 阅读全文

posted @ 2009-05-21 14:12 马森 阅读(367) 评论(0) 推荐(0)

比较lucene各种英文分析器Analyzer
摘要:比较常用的几种英文分析器,他们之间的区别见程序中的注释。SimpleAnalyzerStandardAnalyzerWhitespaceAnalyzerStopAnalyzerpackageanalyzer;importjava.io.Reader;importjava.io.StringReader;importorg.apache.lucene.analysis.Analyzer;import... 阅读全文

posted @ 2009-05-21 14:12 马森 阅读(1084) 评论(0) 推荐(0)

lucene 索引非txt文档 (pdf word rtf html xml)
摘要:搜索要首先要索引,索引的话最简单的方式是索引txt文件,上文已经介绍了。这里介绍一下一些其它格式的文档的索引,例如ms word ,pdf ,rtf等。索引方法:就是先把各种文档先转化成纯文本再索引,所以关键在转换上。幸好java世界中有太多的开源工程,很多都可以拿来直接使用。下边分别介绍一下:写在所有之前:下边所有介绍中的is参数都是inputStream,就是被索引的文件。word文档:把wo... 阅读全文

posted @ 2009-05-21 14:11 马森 阅读(743) 评论(0) 推荐(0)

apache lucene 的核心类
摘要:下边介绍一下lucene的核心类:(参考lucene in action)主要有两部分组成,核心索引类和核心搜索类,顾名思意,就是用来建立索引和用来搜索的类。IndexWriter:可以对索引进行写操作,但不能读取或者搜索。是唯一能写索引的类。Directory:Directory 类代表一个Lucene索引的位置。它是一个抽象类,允许它的子类(其中的两个包含在Lucene中)在合适时存储索引。在... 阅读全文

posted @ 2009-05-21 14:11 马森 阅读(339) 评论(0) 推荐(0)

apache lucene介绍
摘要:什么是luceneApache Lucene是一个开放源程序的搜寻器引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引 让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是 使使用者可以随时应自已需要自订其功能。 Lucene是apache软件基金会... 阅读全文

posted @ 2009-05-21 14:10 马森 阅读(1269) 评论(0) 推荐(0)

apache lucene 一个最简单的实例
摘要:就像每个程序都有一个Hello World来让人体验它一样,lucene也可以很简单的提供一个实例。如下(来自lucene in action的例子)有两个类组成:一个是建立索引packagemy;importjava.io.File;importjava.io.FileReader;importjava.io.IOException;importjava.util.Date;importorg.... 阅读全文

posted @ 2009-05-21 14:10 马森 阅读(476) 评论(0) 推荐(0)

导航