2012年11月15日

Lucene2.0.0源码分析【三】

摘要: Document类分析到这里,我们首先需要了解一下Document的概念。Document的意思是文档,它在Lucene中代表一种逻辑文件。Lucene本身无法为物理文件建立索引,而只能识别并处理自己定义的Document文件。在一些时候,可以将Document与一个物理文件相对应,用一个Document来代替一个物理文件,不过多数情况下,Document和物理文件没有关系,它只是作为一种数据源的集合,向Lucene提供原始的要索引的文本内容。Lucene会从Document取出相关的数据源内容,并根据属性配置进行相应处理。接下来,我们继续分析Document类的内部实现。其源代码位于org. 阅读全文

posted @ 2012-11-15 14:12 savorn 阅读(214) 评论(0) 推荐(0)

(一)Linux? Ubuntu or CentOS? Linux安装

摘要: Linux?首先,来解释一下什么是操作系统。简单来说,操作系统是一套系统软件,它运行于硬件之上,为我们提供各种服务。例如,屏幕上显示的内容是由操作系统控制显卡和屏幕显示的,平时我们使用的各种服务,也是由操作系统控制相关硬件(显卡,网卡,声卡,硬盘等)来提供的。有人说不是,我们使用的是浏览器,即时通讯软件,音乐播放器啊。是的,但是没有操作系统,这些软件就无法运行。这些软件基于操作系统为用户提供服务。如果没有操作系统,那硬件就是一堆废铁。操作系统主要包含两个部分:内核+内核提供的工具。以常用的Windows系统举例,大家应该都用过资源管理器查看文件和目录。如果你使用过WindowsXP系统以前的操 阅读全文

posted @ 2012-11-15 14:03 savorn 阅读(363) 评论(0) 推荐(0)

(零)我为什么要写Linux学习笔记?

摘要: 我对Linux有强烈的好奇心,兴趣;写学习笔记会让我有成就感;我记忆力实在不好。好吧,其实真正原因是:如果我能把自己学到的知识简明扼要的讲出来,写出来,那便证明我真的学懂了我想学的知识。没时间怎么办?将你想做的拆解为小任务、能挤出时间来完成的任务,一点点完成吧。有了时间和决心,不可能将变成不可避免。基于此,我给我要写的Linux学习笔记列出了以下提纲:1、Linux?UbuntuorCentOS?Linux安装2、Bashshell?3、Linux文件管理4、Linux常用命令5、Vi文本编辑器6、磁盘管理及文件系统挂载7、用RAID提升磁盘速度与冗余性8、正则表达式9、Shellscript 阅读全文

posted @ 2012-11-15 13:58 savorn 阅读(207) 评论(1) 推荐(0)

2012年11月5日

Lucene2.0.0源码分析【二】

摘要: 尽管早在去年已经做了大致的分析过程,因为一些事情中断,所以一直没把分析过程写到博客上来。如今想起,便继续写吧。Field类分析在Lucene中,数据源是由一个被称为Field的类来表示的,我们可以把Field称为字段。可以通过Field的构造函数来创建一个Field类型的对象。这个Field类型主要是用来标识当前数据源的各种属性,存储来自数据源的数据内容。Lucene在对每个Field进行处理时,会充分考虑到数据源的各种属性(是否存储,是否索引,是否分词),以便做出相应处理。现在,我们首先看看Field类的内部实现,Field类在org.apache.lucene.document包下面。Fi 阅读全文

posted @ 2012-11-05 11:13 savorn 阅读(196) 评论(0) 推荐(0)

2011年10月17日

Lucene2.0.0源码分析【一】

摘要: 之前利用Lucene+Heritrix,构建了一个简单的专利搜索引擎。不过当初对Lucene内部实现一无所知,知其然而不知其所以然。既然Lucene是Apache下的开源工具包,那么不分析一下源码总觉得有些可惜。事实上,我对Java也是半吊子,有些知识了解的也不详细,于是一边查资料一边分析。所以分析的不一定好,也不一定正确。欢迎内行指正。【Lucene源码下载连接】:http://archive.apache.org/dist/lucene/java/这里可以找到名为Lucene-2.0.0-src的压缩文件,即2.0.0版本源码。截至本文发表日期,最新版本是2011年9月13日发布的3.4. 阅读全文

posted @ 2011-10-17 12:49 savorn 阅读(476) 评论(0) 推荐(0)

导航