导航

2010年5月14日

摘要: 在 lucene 中,我们是使用 IndexWriter 调用 Analyzer 将文章切成以词为单位的 Stream,然后生成索引的。lucene 内建的分词器很多,比如:按空白字符分词的WhitespaceAnalyzer,添加了stopword过滤的StopAnalyzer,以及最常用的是StandardAnalyzer。这些自带的分词器对中文支持多不好,我觉得比较好的中文分词器是 mmse... 阅读全文

posted @ 2010-05-14 17:03 蝈蝈俊 阅读(1405) 评论(0) 推荐(1) 编辑

摘要: lucene 文件存储相关的几个类,以及他们的派生关系如下图: Directory 代表了 Lucene 的索引的存储的位置,这是一个抽象类。 DbDirectory 存储到 Berkeley DB 4.3 的实现,Berkeley DB是历史悠久的嵌入式数据库系统,主要应用在UNIX/LINUX操作系统上,其设计思想是简单、小巧、可靠、高性能。 JEDirectory 存储到 Berkele... 阅读全文

posted @ 2010-05-14 10:48 蝈蝈俊 阅读(595) 评论(0) 推荐(0) 编辑