Lucene - 随笔分类 - eaglet

HubbleDotNet简介及与Lucene.net 对比测试

摘要：Hubble.net 是一个基于.net framework 的开源免费的全文搜索数据库组件。开源协议是 Apache 2.0。Hubble.net 提供了基于SQL的全文检索接口，使用者只需会操作SQL，就可以很快学会使用Hubble.net进行全文检索。Hubble.net 可以实现全文索引和查询、多域检索和排序、分组统计、消重、分类、聚类、多表关联查询等等一系列全文检索和数据挖掘功能。Hubble.net 提供开放的数据库适配器接口，可以和各种数据库完美整合，为各种数据库系统附加全文检索和数据挖掘功能。Hubble.net 设计了较为完善的并发控制程序，数据的增删改查可以多线程同时并发进行，没有任何冲突。Hubble.net 还进行了缓存和内存管理设计，可以帮助用户最大限度的提高查询的效率。Hubble.net 力争在未来的几年内超过Lucene.net成为.net开发环境中最受欢迎的全文检索组件。阅读全文

posted @ 2009-12-15 09:44 eaglet 阅读(8953) 评论(49) 推荐(9)

Lucene 源码剖析-转载

摘要：这是一篇公司的内部培训教材，其中中的内容涵盖LUCENE的方方面面，从源代码角度深入剖析LUCENE，如果要对LUCENE有更加深入的了解（专家级别），这篇技术文档必不可少。前提：对LUCENE有一定程度的了解,否则会让你云里雾里阅读全文

posted @ 2009-02-16 14:53 eaglet 阅读(6174) 评论(3) 推荐(0)

Lucene 源代码剖析-12 如何给文档评分

摘要：如何给文档评分阅读全文

posted @ 2009-02-16 14:45 eaglet 阅读(2540) 评论(1) 推荐(1)

Lucene 源代码剖析-11 文档内容是如何分析的

摘要：文档内容是如何分析的阅读全文

posted @ 2009-02-16 14:37 eaglet 阅读(2264) 评论(0) 推荐(0)

Lucene 源代码剖析-10 索引是如何存储的

摘要：5 索引是如何存储的阅读全文

posted @ 2009-02-16 14:33 eaglet 阅读(2196) 评论(0) 推荐(0)

Lucene 源代码剖析-9 索引创建过程

摘要：4.3 索引创建过程文档的索引过程是通过DocumentsWriter的内部数据处理链完成的，DocumentsWriter可以实现同时添加多个文档并将它们写入一个临时的segment中，完成后再由IndexWriter和SegmentMerger合并到统一的segment中去。DocumentsWriter支持多线程处理，即多个线程同时添加文档，它会为每个请求分配一个DocumentsWriterThreadState对象来监控此处理过程。处理时通过DocumentsWriter初始化时建立的DocFieldProcessor管理的索引处理链来完成的，依次处理为DocFieldConsumers、DocInverter、TermsHash、FreqProxTermsWriter、TermVectorsTermsWriter、NormsWriter以及StoredFieldsWriter等。阅读全文

posted @ 2009-02-16 14:27 eaglet 阅读(2254) 评论(1) 推荐(0)

Lucene 源代码剖析-8 索引是如何创建的

摘要：4 索引是如何创建的为了使用Lucene来索引数据，首先你比把它转换成一个纯文本（plain-text）tokens的数据流（stream），并通过它创建出Document对象，其包含的Fields成员容纳这些文本数据。一旦你准备好些Document对象，你就可以调用IndexWriter类的addDocument(Document)方法来传递这些对象到Lucene并写入索引中。当你做这些的时候，Lucene首先分析（analyzer）这些数据来使得它们更适合索引。详见《Lucene In Action》阅读全文

posted @ 2009-02-16 14:23 eaglet 阅读(3674) 评论(1) 推荐(0)

Lucene 源代码剖析-7 索引文件结构(4)

摘要：3.3.6 Term向量文件 Term向量（vector）的支持是field基本组成中对一个field来说的可选项，它包含如下4种文件：阅读全文

posted @ 2009-02-16 14:00 eaglet 阅读(1940) 评论(0) 推荐(0)

Lucene 源代码剖析-6 索引文件结构(3)

摘要：3.3.3 Term频率数据（.frq） Term频率数据文件（.frq文件）存储容纳了每一个term的文档列表，以及该term出现在该文档中的频率（出现次数frequency，如果omitTf设置为fals时才存储）。阅读全文

posted @ 2009-02-13 14:56 eaglet 阅读(3213) 评论(0) 推荐(0)

Lucene 源代码剖析-5 索引文件结构(2)

摘要：3.3 每个Segment包含的文件阅读全文

posted @ 2009-02-13 14:49 eaglet 阅读(2422) 评论(0) 推荐(0)

Lucene 源代码剖析-4 索引文件结构(1)

摘要：Lucene使用文件扩展名标识不同的索引文件，文件名标识不同版本或者代（generation）的索引片段（segment）。如.fnm文件存储域Fields名称及其属性，.fdt存储文档各项域数据，.fdx存储文档在fdt中的偏移位置即其索引文件，.frq存储文档中term位置数据，.tii文件存储term字典，.tis文件存储term频率数据，.prx存储term接近度数据，.nrm存储调节因子数据，另外segments_X文件存储当前最新索引片段的信息，其中X为其最新修改版本，segments.gen存储当前版本即X值，这些文件的详细介绍上节已说过了。阅读全文

posted @ 2009-02-13 14:37 eaglet 阅读(4130) 评论(0) 推荐(0)

Lucene 源代码剖析-3 索引文件概述

摘要：为了使用Lucene来索引数据，首先你得把它转换成一个纯文本（plain-text）tokens的数据流（stream），并通过它创建出Document对象，其包含的Fields成员容纳这些文本数据。一旦你准备好些Document对象，你就可以调用IndexWriter类的addDocument(Document)方法来传递这些对象到Lucene并写入索引中。当你做这些的时候，Lucene首先分析（analyzer）这些数据来使得它们更适合索引。详见《Lucene In Action》阅读全文

posted @ 2009-02-13 14:28 eaglet 阅读(3442) 评论(2) 推荐(0)

eaglet

公告

随笔分类 - Lucene

HubbleDotNet简介及与Lucene.net 对比测试

Lucene 源码剖析-转载

Lucene 源代码剖析-12 如何给文档评分

Lucene 源代码剖析-11 文档内容是如何分析的

Lucene 源代码剖析-10 索引是如何存储的

Lucene 源代码剖析-9 索引创建过程

Lucene 源代码剖析-8 索引是如何创建的

Lucene 源代码剖析-7 索引文件结构(4)

Lucene 源代码剖析-6 索引文件结构(3)

Lucene 源代码剖析-5 索引文件结构(2)

Lucene 源代码剖析-4 索引文件结构(1)

Lucene 源代码剖析-3 索引文件概述

Lucene 源代码剖析-2 Lucene是什么

不选择使用Lucene的6大原因(转载) - Hubble.net 将尽可能解决这些问题

KTDictSeg 1.4正式版(1.4.2 版本)发布

Lucene.Net RangeQuery 效率确实低下

Hubble.Net 全文数据库开源项目(2008年11月8日更新修改软件架构)

KTDictSeg V1.4.01 新增功能说明及下载地址

盘古分词 - 多元分词

修改 HighLight.net 2.0 版本一处Bug