一、Lucene 创建 查询 中文分析器
jar包:
Lucene包:
lucene-core-4.10.3.jar
lucene-analyzers-common-4.10.3.jar
lucene-queryparser-4.10.3.jar
其它:
commons-io-2.4.jar
junit-4.9.jar
package com.itheima.lucene; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.nio.file.Paths; import org.apache.commons.io.FileUtils; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.cjk.CJKAnalyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.apache.lucene.analysis.tokenattributes.OffsetAttribute; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.document.Field.Store; import org.apache.lucene.document.LongField; import org.apache.lucene.document.StoredField; import org.apache.lucene.document.TextField; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.index.Term; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.ScoreDoc; import org.apache.lucene.search.TermQuery; import org.apache.lucene.search.TopDocs; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; import org.apache.lucene.store.RAMDirectory; import org.apache.lucene.util.Version; import org.junit.Test; import org.wltea.analyzer.lucene.IKAnalyzer; /** * Lucene入门 * 创建索引 * 查询索引 * @author mjl * */ public class FirstLucene { /**创建索引 * @throws IOException * */ @Test public void testIndex() throws IOException{ // 第一步:创建一个java工程,并导入jar包。 // 第二步:创建一个indexwriter对象。open(Paths.get("E:\\lucene\\temp")); // 1)指定索引库的存放位置Directory对象 // 2)指定一个分析器,对文档内容进行分析 Directory directory = FSDirectory.open(new File("E:\\lucene\\temp")); Analyzer analyzer = new IKAnalyzer(); IndexWriterConfig config=new IndexWriterConfig(Version.LATEST,analyzer); IndexWriter indexWriter = new IndexWriter(directory, config); indexWriter.deleteAll();//清除以前的index // 第三步:创建document对象。 // Document document = new Document(); // 第四步:创建field对象,将field添加到document对象中。 File f = new File("E:\\lucene\\resource"); File[] listFiles = f.listFiles(); for (File file : listFiles) { Document document = new Document(); //文件名称 String file_name = file.getName(); Field fileNameField = new TextField("fileName", file_name, Store.YES); //文件大小 long file_size = FileUtils.sizeOf(file); Field fileSizeField = new LongField("fileSize", file_size, Store.YES); //文件路径 String file_path = file.getPath(); Field filePathField = new StoredField("filePath", file_path); //文件内容 String file_content = FileUtils.readFileToString(file);; Field fileContentField = new TextField("fileContent", file_content, Store.YES); document.add(fileNameField); document.add(fileSizeField); document.add(filePathField); document.add(fileContentField); // 第五步:使用indexwriter对象将document对象写入索引库,此过程进行索引创建。并将索引和document对象写入索引库。 indexWriter.addDocument(document); } // 第六步:关闭IndexWriter对象。 indexWriter.close(); } /** * 查询索引 * @throws IOException */ @Test public void testSearch() throws IOException{ // 第一步:创建一个Directory对象,也就是索引库存放的位置。 Directory directory = FSDirectory.open(new File("E:\\lucene\\temp")); // 第二步:创建一个indexReader对象,需要指定Directory对象。 IndexReader indexReader = DirectoryReader.open(directory); // 第三步:创建一个indexsearcher对象,需要指定IndexReader对象 IndexSearcher indexSearcher = new IndexSearcher(indexReader); // 第四步:创建一个TermQuery对象,指定查询的域和查询的关键词。 Query query = new TermQuery(new Term("fileName","web")); // 第五步:执行查询。 TopDocs topDocs = indexSearcher.search(query, 10); System.out.println("查询结果总数量:" + topDocs.totalHits); // 第六步:返回查询结果。遍历查询结果并输出。 ScoreDoc[] scoreDocs = topDocs.scoreDocs; for (ScoreDoc scoreDoc : scoreDocs) { int doc = scoreDoc.doc; //id Document document = indexSearcher.doc(doc); //文件名称5 String fileName = document.get("fileName"); System.out.println(fileName); //文件内容 String fileContent = document.get("fileContent"); // System.out.println(fileContent); //文件路径 String filePath = document.get("filePath"); System.out.println(filePath); //文件大小 String fileSize = document.get("fileSize"); System.out.println(fileSize); System.out.println("-----------"); } // 第七步:关闭IndexReader对象 indexReader.close(); } // 查看标准分析器的分词效果 @Test public void testTokenStream() throws Exception { System.out.println("token"); // 创建一个标准分析器对象 // Analyzer analyzer = new StandardAnalyzer(); // Analyzer analyzer = new CJKAnalyzer(); // Analyzer analyzer = new SmartChineseAnalyzer(); Analyzer analyzer = new IKAnalyzer(); // 获得tokenStream对象 // 第一个参数:域名,可以随便给一个 // 第二个参数:要分析的文本内容 // TokenStream tokenStream = analyzer.tokenStream("test", // "The Spring Framework provides a comprehensive programming and configuration model."); TokenStream tokenStream = analyzer.tokenStream("test", "高富帅可以用二维表结构来逻辑表达实现的数据"); // 添加一个引用,可以获得每个关键词 CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class); // 添加一个偏移量的引用,记录了关键词的开始位置以及结束位置 OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class); // 将指针调整到列表的头部 tokenStream.reset(); // 遍历关键词列表,通过incrementToken方法判断列表是否结束 while (tokenStream.incrementToken()) { // 关键词的起始位置 System.out.println("start->" + offsetAttribute.startOffset()); // 取关键词 System.out.println(charTermAttribute); // 结束位置 System.out.println("end->" + offsetAttribute.endOffset()); } tokenStream.close(); } }