bonelee - 博客园

2017年4月5日

Lucene dvd dvm文件便是docvalues文件——就是针对field value的列存储

摘要： Lucene 5.4 DocValues format. Encodes the five per-document value types (Numeric,Binary,Sorted,SortedSet,SortedNumeric) with these strategies: NUMERIC: 阅读全文

posted @ 2017-04-05 16:42 bonelee 阅读(1377) 评论(2) 推荐(0)

lucene DocValues——本质是为通过docID查找某field的值

摘要：什么是docValues？ docValues是一种记录doc字段值的一种形式，在例如在结果排序和统计Facet查询时，需要通过docid取字段值的场景下是非常高效的。为什么要使用docValues？这种形式比老版本中利用fieldCache来实现正排查找更加高效，更加节省内存。倒排索引将字段内阅读全文

posted @ 2017-04-05 16:26 bonelee 阅读(2885) 评论(1) 推荐(1)

lucene DocValues——没有看懂

摘要：前言：在Lucene4.x之后，出现一个重大的特性，就是索引支持DocValues，这对于广大的solr和elasticsearch用户，无疑来说是一个福音，这玩意的出现通过牺牲一定的磁盘空间带来的好处主要有两个：（1）节省内存（2）对排序，分组和一些聚合操作时能够大大提升性能下面来详细介绍阅读全文

posted @ 2017-04-05 16:20 bonelee 阅读(4008) 评论(0) 推荐(1)

lucene 索引文件大小分布_tim

摘要： Hi,I have index ~31G where27% of the index size is .fdt files (8.5G)20% - .fdx files (6.2G)37% - .frq files (11.6G)16% - .tim files (5G) This is the t 阅读全文

posted @ 2017-04-05 15:59 bonelee 阅读(639) 评论(0) 推荐(0)

lucene segment会包含所有的索引文件，如tim tip等，可以认为是mini的独立索引

摘要： A Lucene index segment can be viewed as a "mini" index or a shard. Each segment is a collection of all needed files for an index, including .tim and . 阅读全文

posted @ 2017-04-05 15:01 bonelee 阅读(880) 评论(0) 推荐(0)

sphinx源码分析总结

摘要： http://www.cnblogs.com/bonelee/p/6667955.html shinx索引部分源码分析——过程：连接到CSphSource对应的sql数据源，通过fetch row取其中一行，然后解析出field，分词，获得wordhit，最后再加入到CSphSource的Hits里阅读全文

posted @ 2017-04-05 12:13 bonelee 阅读(1014) 评论(0) 推荐(0)

sphinx索引部分源码续——过程：连接到CSphSource对应的sql数据源，通过fetch row取其中一行，然后解析出field，分词，获得wordhit，最后再加入到CSphSource的Hits里

摘要：后面就是初始化一些存储结构，其中重点说下缓存出来的几个临时文件分别的作用。结尾时tmp0的存储的是被上锁的Index，有些Index正在被查询使用故上锁。tmp1，即对应将来生成的spp文件，存储词汇的位置信息，包含该词所在的文档ID，该词所在词典对应的ID，以及该词在本文档中的位置信息。 tmp 阅读全文

posted @ 2017-04-05 11:41 bonelee 阅读(532) 评论(0) 推荐(0)

shinx索引部分源码分析——过程：连接到CSphSource对应的sql数据源，通过fetch row取其中一行，然后解析出field，分词，获得wordhit，最后再加入到CSphSource的Hits里

摘要： CSphSource 数据源 CSphSource_XMLPipe2-XML文件获取数据 CSphSource_SQL-SQL(MySQL)获取数据 CSphIndex 索引器派生类CSphIndex_VLN // 索引过程 virtual int Build ( CSphDict * pDict 阅读全文

posted @ 2017-04-05 11:30 bonelee 阅读(696) 评论(0) 推荐(0)

Rust语言——无虚拟机、无垃圾收集器、无运行时、无空指针/野指针/内存越界/缓冲区溢出/段错误、无数据竞争

摘要： 2006年，编程语言工程师Graydon Hoare利用业余时间启动了Rust语言项目。该项目充分借鉴了C/C++/Java/Python等语言的经验，试图在保持良好性能的同时，克服以往编程语言所存在的问题。其最大的特点在于保持较高的运行效率、深入的底层控制和广泛应用范围的同时，解决了传统C语言和C 阅读全文

posted @ 2017-04-05 10:46 bonelee 阅读(1613) 评论(0) 推荐(0)

2017年4月4日

日元兑换——国内兑换需要护照和签证，国外的机场有兑换ATM

摘要：在中国换日元：在中国的商业银行都可以换取日元，但是换汇者必须持有护照、签证等材料。换汇的汇率是按照即时汇率进行结算，如是现钞则按钞买价兑换，另外还要收取0.5%的手续费。在日本换日元：除了在日本银行或者其它的外币兑换处外，主要国际机场也有为旅客提供货币兑换服务的外汇兑换窗口。此外，还可以在日本全国阅读全文

posted @ 2017-04-04 21:54 bonelee 阅读(5808) 评论(4) 推荐(0)

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

公告