1
Lucene.Net 创建全文搜索最核心的内容是Create Index 和 Search ,而创建索引是后面搜索的基础,因为后面的搜索是使用索引来搜索的。对于创建索引,Lucene.Net 专门提供了个类实现,其中 Lucene.Net.Index..IndexWrite 创建索引并将索引写入文件,对应的Lucene.Net.Index..IndexReader 实现从文件夹中将索引读出来,以便对索引进行修改等操作
2
3
创建索引:
4
5
IndexWriter indexwriter = new IndexWriter("index", new StandardAnalyzer(), true);
6
7
首先是定义一个索引写入器indexwrite,其中第一个参数index表示要存储索引的文件夹,第二个参数是一个分析对象,主要用于从文本中抽取那些需要建立索引的内容,把不需要参与建索引的文本内容去掉.比如去掉一些a the之类的常用词,还有决定是否大小写敏感.不同的选项通过指定不同的分析对象控制,第三个参数用于确定是否覆盖原有索引,true表示新创建的索引将覆盖掉原来的索引,false 将重新创建并保留原有索引。
8
9
Document doc = new Document();
10
11
创建一个文档对象
12
13
doc.Add(Field.UnStored("text", context);
14
15
doc.Add(Field.Keyword("path", path));
16
17
doc.Add(Field .Text ("filename",filename));
18
19
给文档添加属性,Add方法是将一个属性添加到doc中,text是要添家的属性的名字,context是要创建索引的内容,可以是任何可以解读的数据源,这里要注意的是Field中的几个类型,总共有4个
20
21
1、Keyword 见名知意就是关键字,该字段中的内容不经过分析但会被索引并直接保存到索引中,比如:good,filename,teacher等字符串常量,也可以是一个字符串数组,如string [] contex={“doc”,”xls”,”ppt”,”pdf”,html”,txt”}
22
23
Foreach(stirng strcontex in contex)
24
25
{
26
27
doc.Add(Filed.Keyword(“text”,strcontex);
28
29
}
30
31
也可以这样将你的关键字添家到文档中。
32
33
2、 UnIndexed 不被分析,不被索引,但却保存在索引中
34
35
3、Unstrored 和UnIndexed刚好相反
36
37
4、 Text 和UnStrored类似.如果值的类型为string还会被保存.如果值的类型为Reader就不会被保存和UnStored一样.
38
39
indexriter.AddDocument(doc);
40
41
将doc添加到索引中 writer.Optimize();
42
43
对创建的索引进行优化
44
writer.Close();
45
46
关闭写入器
47
48
到此一个简单的索引创建完毕。
49
50
下面再提供一个创建索引的例子:
51
52
private String[] keywords = {"20001895", "20001896"};
53
54
private String[] unindexed = {"Red star", "good morning"};
55
56
private String[] unstored = { "I am a programer", "you are programmer ,too",};
57
58
private String[] text1 = { " programer ", "morning" };
59
60
private String[] text2 = { "200606", "200609" };
61
62
private String[] text3 = { "/Computers/red", "/Computers/star" };
63
64
private Directory dir;
65
66
protected void AddDocuments()
67
68
{
69
70
string indexDir = "index";
71
72
dir = FSDirectory.GetDirectory(indexDir, true);
73
74
IndexWriter writer=new IndexWriter(dir, GetAnalyzer(), true);
75
76
for (int i = 0; i < keywords.Length; i++)
77
78
{
79
80
Document doc = new Document();
81
82
doc.Add(Field.Keyword("isbn", keywords[i]));
83
84
doc.Add(Field.UnIndexed("title", unindexed[i]));
85
86
doc.Add(Field.UnStored("contents", unstored[i]));
87
88
doc.Add(Field.Text("subject", text1[i]));
89
90
doc.Add(Field.Text("pubmonth", text2[i]));
91
92
doc.Add(Field.Text("category", text3[i]));
93
94
writer.AddDocument(doc);
95
96
}
97
98
writer.Optimize();
99
100
writer.Close();
101
102
}
103
104
105
106
数据检索:
107
108
创建完了索引后怎么来利用索引检索数据,这里就要用到Lucene.Net.Searcher.IndexSercher个类来读取索引文件,并将读取的结果放在 Hits中,这里的Hits是一个集合,和DataSet有相似之处,DataSet中放的是Tables,Hits中放的是Documents,然后就是将Hits中的数据怎么处理的问题,这不是论述的重点,以后有时间再写这部分。
109
110
IndexSearcher searcher = new IndexSearcher(indexDirectory);
111
112
创建一个搜索器,参数是创建索引的路径
113
114
Query query = QueryParser.Parse(condition, "text", new StandardAnalyzer());
115
116
定义一个查询对象,参数condition表示查询的条件,text 我们创建索引时的要被分析的内容,第三个是个分析对象
117
118
Hits hits = searcher.Search(query);
119
120
通过搜索器将搜索的Document放到Hits中
121
122
Int total = hits.Length();
123
124
计算hits中有多少个Document
125
126
for (int i = 0; i < total; i++)
127
128
循环遍历
129
130
{
131
132
Document doc = hits.Doc(i);
133
134
string path = doc.Get("path");
135
136
string plainText =doc.Get(“text”);;
137
138
string str=doc.Get ("filename");
139
140
通过Get方法将搜索的内容提取出来
141
142
}
143
144
searcher.Close();//关闭搜索器
145
Lucene.Net 创建全文搜索最核心的内容是Create Index 和 Search ,而创建索引是后面搜索的基础,因为后面的搜索是使用索引来搜索的。对于创建索引,Lucene.Net 专门提供了个类实现,其中 Lucene.Net.Index..IndexWrite 创建索引并将索引写入文件,对应的Lucene.Net.Index..IndexReader 实现从文件夹中将索引读出来,以便对索引进行修改等操作2

3
创建索引:4

5
IndexWriter indexwriter = new IndexWriter("index", new StandardAnalyzer(), true); 6

7
首先是定义一个索引写入器indexwrite,其中第一个参数index表示要存储索引的文件夹,第二个参数是一个分析对象,主要用于从文本中抽取那些需要建立索引的内容,把不需要参与建索引的文本内容去掉.比如去掉一些a the之类的常用词,还有决定是否大小写敏感.不同的选项通过指定不同的分析对象控制,第三个参数用于确定是否覆盖原有索引,true表示新创建的索引将覆盖掉原来的索引,false 将重新创建并保留原有索引。8

9
Document doc = new Document();10

11
创建一个文档对象12

13
doc.Add(Field.UnStored("text", context);14

15
doc.Add(Field.Keyword("path", path)); 16

17
doc.Add(Field .Text ("filename",filename));18

19
给文档添加属性,Add方法是将一个属性添加到doc中,text是要添家的属性的名字,context是要创建索引的内容,可以是任何可以解读的数据源,这里要注意的是Field中的几个类型,总共有4个20

21
1、Keyword 见名知意就是关键字,该字段中的内容不经过分析但会被索引并直接保存到索引中,比如:good,filename,teacher等字符串常量,也可以是一个字符串数组,如string [] contex={“doc”,”xls”,”ppt”,”pdf”,html”,txt”} 22

23
Foreach(stirng strcontex in contex)24

25
{26

27
doc.Add(Filed.Keyword(“text”,strcontex);28

29
}30

31
也可以这样将你的关键字添家到文档中。32

33
2、 UnIndexed 不被分析,不被索引,但却保存在索引中34

35
3、Unstrored 和UnIndexed刚好相反36

37
4、 Text 和UnStrored类似.如果值的类型为string还会被保存.如果值的类型为Reader就不会被保存和UnStored一样.38

39
indexriter.AddDocument(doc); 40

41
将doc添加到索引中 writer.Optimize(); 42

43
对创建的索引进行优化44
writer.Close();45

46
关闭写入器47

48
到此一个简单的索引创建完毕。49

50
下面再提供一个创建索引的例子:51

52
private String[] keywords = {"20001895", "20001896"};53

54
private String[] unindexed = {"Red star", "good morning"};55

56
private String[] unstored = { "I am a programer", "you are programmer ,too",};57

58
private String[] text1 = { " programer ", "morning" };59

60
private String[] text2 = { "200606", "200609" }; 61

62
private String[] text3 = { "/Computers/red", "/Computers/star" };63

64
private Directory dir; 65

66
protected void AddDocuments()67

68
{ 69

70
string indexDir = "index";71

72
dir = FSDirectory.GetDirectory(indexDir, true);73

74
IndexWriter writer=new IndexWriter(dir, GetAnalyzer(), true); 75

76
for (int i = 0; i < keywords.Length; i++)77

78
{79

80
Document doc = new Document();81

82
doc.Add(Field.Keyword("isbn", keywords[i]));83

84
doc.Add(Field.UnIndexed("title", unindexed[i]));85

86
doc.Add(Field.UnStored("contents", unstored[i]));87

88
doc.Add(Field.Text("subject", text1[i]));89

90
doc.Add(Field.Text("pubmonth", text2[i]));91

92
doc.Add(Field.Text("category", text3[i]));93

94
writer.AddDocument(doc);95

96
} 97

98
writer.Optimize();99

100
writer.Close();101

102
}103

104
105

106
数据检索:107

108
创建完了索引后怎么来利用索引检索数据,这里就要用到Lucene.Net.Searcher.IndexSercher个类来读取索引文件,并将读取的结果放在 Hits中,这里的Hits是一个集合,和DataSet有相似之处,DataSet中放的是Tables,Hits中放的是Documents,然后就是将Hits中的数据怎么处理的问题,这不是论述的重点,以后有时间再写这部分。109

110
IndexSearcher searcher = new IndexSearcher(indexDirectory); 111

112
创建一个搜索器,参数是创建索引的路径 113

114
Query query = QueryParser.Parse(condition, "text", new StandardAnalyzer());115

116
定义一个查询对象,参数condition表示查询的条件,text 我们创建索引时的要被分析的内容,第三个是个分析对象117

118
Hits hits = searcher.Search(query);119

120
通过搜索器将搜索的Document放到Hits中121

122
Int total = hits.Length(); 123

124
计算hits中有多少个Document 125

126
for (int i = 0; i < total; i++) 127

128
循环遍历129

130
{131

132
Document doc = hits.Doc(i); 133

134
string path = doc.Get("path"); 135

136
string plainText =doc.Get(“text”);;137

138
string str=doc.Get ("filename");139

140
通过Get方法将搜索的内容提取出来141

142
} 143

144
searcher.Close();//关闭搜索器145



浙公网安备 33010602011771号