lucene文件扩展名 - canexjtuzju

名称	文件后缀	描述
段文件(Segments File)	segments.gen segments_N	存储提交点信息
锁文件(Lock　File)	write.lock	用来阻止多个indexWriter向同一个文件写数据
段信息(Segments Info)	.si	存储段的元数据信息
复合文件(Compound File)	.cfs , .cfe	一个可选的虚拟文件，包括所有其他索引文件系统频繁用完的文件句柄
字段信息(Fields)	.fnm	存储字段的信息
字段索引(Fields Index)	.fdx	包含指向字段值的指针
字段数据(Field Data)	.fdt	存储文档里面的字段信息
词典(Term Dictionary)	.tim	存储词信息
词索引(Term Index)	.tip	指向词典的索引
频率信息(Frequencies)	.doc	包含那些含有每一个词的频率的文档列表
位置信息(Positions)	.pos	存储词在索引中出现的位置信息
Payloads	.pay	额外存储每个位置的元数据信息，如字符偏移和用户负载
Norms	.nvd , .nvm	文档和字段的length和boost系数的编码
每个文档的值(Per-Document Values)	.dvd , .dvm	额外的得分系数或者每个文档的值信息编码
词向量索引(Term Vector Index)	.tvx	存储文档的偏移数据文件
词向量文件(Term Vector Documents)	.tvd	包含有词向量的文档信息
词向量字段(Term Vector Fields)	.tvf	关于词向量的字段级信息
删除文档(Deleted Documents)	.del	关于什么文件被删除的信息

lucene一个文件夹就是一个索引。

关系是：

索引(Index) –> 段(segment) –> 文档
(Document) –> 域(Field) –> 词(Term)

这些概念定义如下：

一个索引可以包含多个段，段与段之间是独立的，添加新文档可以生成新的段，不
同的段可以合并。
如上图，具有相同前缀文件的属同一个段，图中共两个段 "_0" 和 "_1"。
segments.gen 和segments_5 是段的元数据文件，也即它们保存了段的属性信息。

文档是我们建索引的基本单位，不同的文档是保存在不同的段中的，一个段可以包
含多篇文档。
新添加的文档是单独保存在一个新生成的段中，随着段的合并，不同的文档合并到
同一个段中。

一篇文档包含不同类型的信息，可以分开索引，比如标题，时间，正文，作者等，
都可以保存在不同的域里。
不同域的索引方式可以不同，在真正解析域的存储的时候，我们会详细解读。

词是索引的最小单位，是经过词法分析和语言处理后的字符串。

发表于 2016-02-19 17:24 canexjtuzju 阅读(550) 评论(0) 收藏举报