随笔列表第15页 - searchDM

2009年9月16日

摘要： mmseg4j 发布也有一段时间了，前些日子忙着发布新的版本，修正 bug 之类的。使用示例一直拖到现在，其实 svn 上的 test 有使用 lucene 例子。如果你了解 lucene ，就不用例子也可以很方便与它集成。 mmseg4j 有几个 analyzer：SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer、MMSegAnalyzer。前面三个都是继承 MMSegAnalyzer，MMSegAnalyzer 默认使用 max-word 方式分词。这些 analyzer 都有无参数的构造函数，还有一个带词库目录为参数的构造函数。怎... 阅读全文

posted @ 2009-09-16 12:24 searchDM 阅读(1137) 评论(0) 推荐(0) 编辑

Solr Multicore 结合 Solr Distributed Searching 切分大索引来搜索

摘要： Solr Distributed Searching （分布式搜索）是 solr 1.3 的特性。大索引，可能有多种原因要把它分成N个小的索引，可以把小索引放到其它的机器上，但是我没这么多机器怎么办呢？solr 1.3 有 multicore，恩，multicore 简单使用可以看我那一篇文章。各个 core 各不干扰，可以独立做索引（做索引时，可以分散到各个core上）。现来看下 Distributed Searching 的效果，打开：http://localhost:8080/solr-cores/core0/select/?q=*%3A*&version=2.2&st 阅读全文

posted @ 2009-09-16 12:22 searchDM 阅读(824) 评论(0) 推荐(0) 编辑

Solr Multicore 试用小记

摘要： Solr Multicore 是 solr 1.3 的新特性。其目的一个solr实例，可以有多个搜索应用。下面来小试一下。官方发布的示例。在solr1.3/example/multicore目录（可以认为是multi.home）下，有一个 solr.xml（这只是默认文件，当然也可以指定别的文件），如： <?xmlversion="1.0"encoding="UTF-8"?><solrpersistent="false"><coresadminPath="/admin/cores"& 阅读全文

posted @ 2009-09-16 12:21 searchDM 阅读(1204) 评论(2) 推荐(0) 编辑

solr 使用自定义的 QueryParser

摘要：如果想让 solr 有更加强大的功能或在查询时做一些特别的处理。可以在 solrconfig.xml 里注册自定义的 QueryParser（查询解析器），这是 solr 1.3 的新功能（插件功能），如： <queryParsername="mylucene"class="org.apache.solr.search.MyQParserPlugin"/><queryParser name="mylucene" class="org.apache.solr.search.MyQParserPlugin&qu 阅读全文

posted @ 2009-09-16 12:20 searchDM 阅读(546) 评论(0) 推荐(0) 编辑

换 solr 里的 lucene 包

摘要： solr 1.3 发布的时候，lucene 2.4还没有正式发布，其的 lucene 是开发版，现在lucene 2.4早已发布，那就换上新的 lucene 吧。下载 solr 1.3 http://labs.xiaonei.com/apache-mirror/lucene/solr/1.3.0/apache-solr-1.3.0.zip和 lucene 2.4 http://labs.xiaonei.com/apache-mirror/lucene/java/lucene-2.4.0.zip到目录如e:/search/，把 e:/search/apache-solr-1.3/... 阅读全文

posted @ 2009-09-16 12:19 searchDM 阅读(257) 评论(0) 推荐(0) 编辑

mmseg4j 中文分词 1.6 版发布

摘要：经过几天的开发与调试，mmseg4j 1.6 版可以发布了。1.6 版主要实现与下功能：实现多分词，在complex基础上，把长的词（大于2）拆出多个词。按二元分词，且把不存在的词去了，如：“西伯利亚” -> "西|伯利|利亚"，"西伯" 不存在词库中；“中国人民银行”-> "中国|国人|人民|银行"支持多个词库文件，在词库目录中放"words"前缀且".dic"后缀的文件。如：data/words-my.dic单字的单位独立一个文件(data/units.dic, 已经放入jar 阅读全文

posted @ 2009-09-16 12:18 searchDM 阅读(328) 评论(0) 推荐(0) 编辑

solr 各种 writer 的性能测试对比

摘要： solr 1.3 增加了两种格式的输出，现在对各种输出给个测试报告。有 xml、json、php、phps输出作个对比，对相同相同查询各请求1W次，下面测试结果： solr-writer-test 点击放大上面的结果表明，json是最快的(吞吐量最大)，而且数据量最小（K速最小），php、php、xml差不多，但，php与phps快一点点，但数据量大了一些。得出的结论：吞吐量：json > php > phps > xml 数据量：json < xml < phps < php 如果不知道报表中的列代表的含义可以看 Jmeter测试报表相关参数说明还阅读全文

posted @ 2009-09-16 12:18 searchDM 阅读(539) 评论(0) 推荐(0) 编辑

lucene & solr optimize 索引后结果与平台有点关系

摘要：昨日做索引的程序重构下，测试 optimize 索引（在原有数据基础上提交索引）时，在开发的机器（windows）里总是会有两段索引，要再 optimize 才只是一个索引段，当然不是设置 maxSegments=2。反复运行还是如此，为了说明是否写的程序有问题，就用 solr 自带的 post.sh （或 post.jar）提交 optimize。结果还是有两段，再提交一次optimize 才是一个段。这问题…… 旧的程序运行得很正常，看了下它也没有提交两次优化。然后把新的程序也放到服务器（linux）上运行，结果是只有一个段。恩，可以认为是与文件系统有关，optimize 的时候是先新生阅读全文

posted @ 2009-09-16 12:17 searchDM 阅读(399) 评论(0) 推荐(0) 编辑

solr 设置 timeout 查询超时

摘要：昨天再一次看 lucene 2.4 的新特性的时候，发现有一个TimeLimitedCollector东西，看类名也就知其什么功能了。目前用的solr都没有设置超时，所以压力比较大的时候查询会越来越慢，也就越积越多，最终可能让 solr 挂了。总是想要个 timeout 功能，可能会对解决此问题有一定帮助。之前看lucene 2.4新特性时，没太注意。昨日注意到了，就要试一下。 solr 1.3 用的是 lucene 2.4 dev 版，还要看下 solr 有没有使用这特性。搜索源码发现 solr 1.3 有使用这个新特性。太好了，不用 hack了。慢慢发现，solr 1.3 有这样的请求阅读全文

posted @ 2009-09-16 12:16 searchDM 阅读(922) 评论(0) 推荐(0) 编辑

solr 优化索引成 2段或N段

摘要：默认 solr 优化索引的时候，只一个段，比起 N段（N不是很大）来说，可能有点耗时。索引为N段也不会一个文件太大。可以有两种方式： url: curl"http://localhost:8080/solr/update?maxSegments=2&optimize=true"curl "http://localhost:8080/solr/update?maxSegments=2&optimize=true" xml: curlhttp://localhost:8080/solr/update--data-binary"&l 阅读全文

posted @ 2009-09-16 12:16 searchDM 阅读(347) 评论(0) 推荐(0) 编辑

wycg1984

公告