bonelee - 博客园

2017年2月14日

ES索引文件和数据文件大小对比——splunk索引文件大小远小于ES，数据文件的压缩比也较ES更低，有趣的现象：ES数据文件zip压缩后大小和splunk的数据文件相当！词典文件tim/tip+倒排doc/pos和cfs文件是索引的大头

摘要：和splunk对比： ES中各个倒排索引文件的分布：测试说明：ES2.41版本，数据使用500次批量插入，每批数据都不同，大小500条，每条数据50个字段，对应的字符串使用长度为1-10个单词随机生成！阅读全文

posted @ 2017-02-14 10:44 bonelee 阅读(2421) 评论(0) 推荐(0)

2017年2月13日

Lucene4.2源码解析之fdt和fdx文件的读写(续)——fdx文件存储一个个的Block，每个Block管理着一批Chunk，通过docID读取到document需要完成Segment、Block、Chunk、document四级查询，引入了LZ4算法对fdt的chunk docs进行了实时压缩/解压

摘要： 2 索引读取阶段当希望通过一个DocId得到Doc的全部内容，那么就需要对fdx/fdt文件进行读操作了。具体的代码在CompressingStoredFieldsReader类里面。与CompressingStoredFieldsWriter一样，这些操作都是建立在fdx/fdt文件格式理解的基阅读全文

posted @ 2017-02-13 20:14 bonelee 阅读(820) 评论(0) 推荐(0)

Lucene4.2源码解析之fdt和fdx文件的读写——fdx文件存储一个个的Block，每个Block管理着一批Chunk，通过docID读取到document需要完成Segment、Block、Chunk、document四级查询，引入了LZ4算法对fdt的chunk docs进行了实时压缩/解压

摘要：前言前言前言通常在搜索打分完毕后，IndexSearcher会返回一个docID序列，但是仅仅有docID我们是无法看到存储在索引中的document,这时候就需要通过docID来得到完整Document信息，这个过程就需要对fdx/fdt文件进行读操作。为了更清楚地了解fdx/fdt文件的作阅读全文

posted @ 2017-02-13 20:13 bonelee 阅读(1319) 评论(0) 推荐(0)

lucene反向索引——倒排表无论是文档号及词频，还是位置信息，都是以跳跃表的结构存在的

摘要：转自：http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661436.html 4.2. 反向信息反向信息是索引文件的核心，也即反向索引。反向索引包括两部分，左面是词典(Term Dictionary)，右面是倒排表(Posting 阅读全文

posted @ 2017-02-13 18:08 bonelee 阅读(1796) 评论(0) 推荐(1)

lucene正向索引（续）——一个文档的所有filed+value都在fdt文件中！！！

摘要： 4.1.3. 域(Field)的数据信息(.fdt，.fdx) 域数据文件(fdt): 真正保存存储域(stored field)信息的是fdt文件在一个段(segment)中总共有segment size篇文档，所以fdt文件中共有segment size个项，每一项保存一篇文档的域的信息对于阅读全文

posted @ 2017-02-13 18:00 bonelee 阅读(802) 评论(0) 推荐(0)

Choosing a fast unique identifier (UUID) for Lucene——有时间再看下

摘要： Most search applications using Apache Lucene assign a unique id, or primary key, to each indexed document. While Lucene itself does not require this ( 阅读全文

posted @ 2017-02-13 17:34 bonelee 阅读(468) 评论(0) 推荐(0)

Lucene核心数据结构——FST存词典，跳表存倒排或者roarning bitmap 见另外一个文章

摘要： Lucene实现倒排表没有使用bitmap，为了效率，lucene使用了一些策略，具体如下：1. 使用FST保存词典，FST可以实现快速的Seek，这种结构在当查询可以表达成自动机时(PrefixQuery、FuzzyQuery、RegexpQuery等)效率很高。(可以理解成自动机取交集)此种场景阅读全文

posted @ 2017-02-13 16:43 bonelee 阅读(11170) 评论(0) 推荐(0)

lucene正向索引（续）——域(Field)的元数据信息在.fnm里，在倒排表里，利用跳跃表，有利于大大提高搜索速度。

摘要： 4.1.2. 域(Field)的元数据信息(.fnm) 一个段(Segment)包含多个域，每个域都有一些元数据信息，保存在.fnm文件中，.fnm文件的格式如下： FNMVersion 是fnm文件的版本号，对于Lucene 2.9为-2 FieldsCount 域的数目一个数组的域(Field 阅读全文

posted @ 2017-02-13 16:11 bonelee 阅读(862) 评论(0) 推荐(0)

lucene正向索引（续）——每次commit会形成一个新的段，段"_1"的域和词向量信息可能存在"_0.fdt"和"_0.fdx”中

摘要： DocStoreOffset DocStoreSegment DocStoreIsCompoundFile 对于域(Stored Field)和词向量(Term Vector)的存储可以有不同的方式，即可以每个段(Segment)单独存储自己的域和词向量信息，也可以多个段共享域和词向量，把它们存储到阅读全文

posted @ 2017-02-13 15:54 bonelee 阅读(917) 评论(0) 推荐(0)

lucene正向索引——正向信息，Index –> Segments (segments.gen, segments_N) –> Field(fnm, fdx, fdt) –> Term (tvx, tvd, tvf)

摘要：转自：http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html 上面曾经交代过，Lucene保存了从Index到Segment到Document到Field一直到Term的正向信息，也包括了从Term到Document映阅读全文

posted @ 2017-02-13 15:29 bonelee 阅读(1031) 评论(0) 推荐(0)

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

公告