会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
将者,智、信、仁、勇、严也。
Hi,我是李智华,华为-安全AI算法专家,欢迎来到安全攻防对抗的有趣世界。
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
244
245
246
247
248
249
250
251
252
···
274
下一页
2017年2月14日
ES索引文件和数据文件大小对比——splunk索引文件大小远小于ES,数据文件的压缩比也较ES更低,有趣的现象:ES数据文件zip压缩后大小和splunk的数据文件相当!词典文件tim/tip+倒排doc/pos和cfs文件是索引的大头
摘要: 和splunk对比: ES中各个倒排索引文件的分布: 测试说明:ES2.41版本,数据使用500次批量插入,每批数据都不同,大小500条,每条数据50个字段,对应的字符串使用长度为1-10个单词随机生成!
阅读全文
posted @ 2017-02-14 10:44 bonelee
阅读(2421)
评论(0)
推荐(0)
2017年2月13日
Lucene4.2源码解析之fdt和fdx文件的读写(续)——fdx文件存储一个个的Block,每个Block管理着一批Chunk,通过docID读取到document需要完成Segment、Block、Chunk、document四级查询,引入了LZ4算法对fdt的chunk docs进行了实时压缩/解压
摘要: 2 索引读取阶段 当希望通过一个DocId得到Doc的全部内容,那么就需要对fdx/fdt文件进行读操作了。具体的代码在CompressingStoredFieldsReader类里面。与CompressingStoredFieldsWriter一样,这些操作都是建立在fdx/fdt文件格式理解的基
阅读全文
posted @ 2017-02-13 20:14 bonelee
阅读(820)
评论(0)
推荐(0)
Lucene4.2源码解析之fdt和fdx文件的读写——fdx文件存储一个个的Block,每个Block管理着一批Chunk,通过docID读取到document需要完成Segment、Block、Chunk、document四级查询,引入了LZ4算法对fdt的chunk docs进行了实时压缩/解压
摘要: 前言 前言 前言 通常在搜索打分完毕后,IndexSearcher会返回一个docID序列,但是仅仅有docID我们是无法看到存储在索引中的document,这时候就需要通过docID来得到完整Document信息,这个过程就需要对fdx/fdt文件进行读操作。为了更清楚地了解fdx/fdt文件的作
阅读全文
posted @ 2017-02-13 20:13 bonelee
阅读(1319)
评论(0)
推荐(0)
lucene反向索引——倒排表无论是文档号及词频,还是位置信息,都是以跳跃表的结构存在的
摘要: 转自:http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661436.html 4.2. 反向信息 反向信息是索引文件的核心,也即反向索引。 反向索引包括两部分,左面是词典(Term Dictionary),右面是倒排表(Posting
阅读全文
posted @ 2017-02-13 18:08 bonelee
阅读(1796)
评论(0)
推荐(1)
lucene正向索引(续)——一个文档的所有filed+value都在fdt文件中!!!
摘要: 4.1.3. 域(Field)的数据信息(.fdt,.fdx) 域数据文件(fdt): 真正保存存储域(stored field)信息的是fdt文件 在一个段(segment)中总共有segment size篇文档,所以fdt文件中共有segment size个项,每一项保存一篇文档的域的信息 对于
阅读全文
posted @ 2017-02-13 18:00 bonelee
阅读(802)
评论(0)
推荐(0)
Choosing a fast unique identifier (UUID) for Lucene——有时间再看下
摘要: Most search applications using Apache Lucene assign a unique id, or primary key, to each indexed document. While Lucene itself does not require this (
阅读全文
posted @ 2017-02-13 17:34 bonelee
阅读(468)
评论(0)
推荐(0)
Lucene核心数据结构——FST存词典,跳表存倒排或者roarning bitmap 见另外一个文章
摘要: Lucene实现倒排表没有使用bitmap,为了效率,lucene使用了一些策略,具体如下:1. 使用FST保存词典,FST可以实现快速的Seek,这种结构在当查询可以表达成自动机时(PrefixQuery、FuzzyQuery、RegexpQuery等)效率很高。(可以理解成自动机取交集)此种场景
阅读全文
posted @ 2017-02-13 16:43 bonelee
阅读(11170)
评论(0)
推荐(0)
lucene正向索引(续)——域(Field)的元数据信息在.fnm里,在倒排表里,利用跳跃表,有利于大大提高搜索速度。
摘要: 4.1.2. 域(Field)的元数据信息(.fnm) 一个段(Segment)包含多个域,每个域都有一些元数据信息,保存在.fnm文件中,.fnm文件的格式如下: FNMVersion 是fnm文件的版本号,对于Lucene 2.9为-2 FieldsCount 域的数目 一个数组的域(Field
阅读全文
posted @ 2017-02-13 16:11 bonelee
阅读(862)
评论(0)
推荐(0)
lucene正向索引(续)——每次commit会形成一个新的段,段"_1"的域和词向量信息可能存在"_0.fdt"和"_0.fdx”中
摘要: DocStoreOffset DocStoreSegment DocStoreIsCompoundFile 对于域(Stored Field)和词向量(Term Vector)的存储可以有不同的方式,即可以每个段(Segment)单独存储自己的域和词向量信息,也可以多个段共享域和词向量,把它们存储到
阅读全文
posted @ 2017-02-13 15:54 bonelee
阅读(917)
评论(0)
推荐(0)
lucene正向索引——正向信息,Index –> Segments (segments.gen, segments_N) –> Field(fnm, fdx, fdt) –> Term (tvx, tvd, tvf)
摘要: 转自:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html 上面曾经交代过,Lucene保存了从Index到Segment到Document到Field一直到Term的正向信息,也包括了从Term到Document映
阅读全文
posted @ 2017-02-13 15:29 bonelee
阅读(1031)
评论(0)
推荐(0)
上一页
1
···
244
245
246
247
248
249
250
251
252
···
274
下一页
公告