摘要: 在经过使用了庖丁以后,这里说说怎么将目前很火很流行的IK集成进SOLR,其实方法真的很简单,比paoding方便不少。这里很感谢IK的作者,蓝山咖啡,很感谢你为中文分词做出的贡献。 作者博客:http://linliangyi2007.javaeye.com 入正题: 1》请先去作者博客参看IK下载地址,主要就是一个IKAnalyzer3.1.1Stable.jar。我这里用的是最新版! Java代码 packagecom.yeedoo.slor.tokenizer;importjava.io.Reader;importorg.apache.lucene.analysis.TokenSt... 阅读全文
posted @ 2009-09-16 11:56 searchDM 阅读(1269) 评论(0) 推荐(0) 编辑
摘要: solr不可谓是个好东西啊,越往下挖掘,他的各种功能逐渐的展现在我的面前,对于solr的架构人员,不得不令人佩服啊。 几天前偶尔看到IBM developmentWorks上面的一片文章,看到了数据库数据的导入,以前我一直是这么认为的,像这种导入可以自己去写程序去导入。 写程序 可以将数据读出100条,如果你的内存够大,可以是1000条甚至更多,然后放入Collection中,批量提交至solr。或者读取数据写入xml文件中,再将该文件提交到solr等等。但是,在我看到那一篇文章的时候,原来还有这么巧妙的招。 废话不多说,入正题。 一.首先准备好solr的dataimport功能需要的... 阅读全文
posted @ 2009-09-16 11:55 searchDM 阅读(1020) 评论(0) 推荐(0) 编辑
摘要: solr的一些查询语法 1. 首先假设我的数据里fields有:name, tel, address 预设的搜寻是name这个字段, 如果要搜寻的数据刚好就是 name 这个字段,就不需要指定搜寻字段名称. 2. 查询规则: 如欲查询特定字段(非预设字段),请在查询词前加上该字段名称加 “:” (不包含”号) 符号, 例如: address:北京市海淀区上地软件园 tel:88xxxxx1 1>. q代表query input 2>. version代表solr版本(建议不要变动此变量) 3>. start代表显示结果从哪一笔结果资料开始,预设为0代表第一笔, rows是说要 阅读全文
posted @ 2009-09-16 11:54 searchDM 阅读(1000) 评论(0) 推荐(0) 编辑
摘要: 引用Bory.Chanhttp://blog.chenlb.com/2009/04/apply-solr-collapsing-patch-remove-duplicate-result.html 打上SOLR-236_collapsing.patch补丁,实现 solr 搜索结果折叠、除去重复的搜索结果,可以实现类似google搜索结果的“站内的其它相关信息 ”。solr collapsing patch 是用 hash 某个字段来实现折叠重复结果的。下面我演示下应用这个补丁并搜索试用下。 其实 solr 上已经有了这功能的实现:solr 1.3 collapse patch, 请看:ht. 阅读全文
posted @ 2009-09-16 11:53 searchDM 阅读(1156) 评论(2) 推荐(0) 编辑
摘要: 某日,突发奇想,想写这么一个博客,希望记录下所有在solr中使用的毛病。而且我希望广大的看友们也能一起来说说你们平时遇到的各种错误,这样大家才能一起更好的进步! 话不多说,进入正题 1》solr 做索引时报 Lock obtain timed out: SingleInstanceLock: write.lock 有个频繁做索引的应用,它同时也对外提供搜索服务。大部分是 solr 1.3 的默认配置。solr 做索引,有时候报: Xml代码 2009-7-139:48:06org.apache.solr.common.SolrExceptionlog严重:org.apache.lucen... 阅读全文
posted @ 2009-09-16 11:51 searchDM 阅读(809) 评论(0) 推荐(0) 编辑
摘要: 在做solr查询的时候,solr提供了很多参数来扩展它自身的强大功能!以下是使用频率最高的一些参数! 具体请看: 1.常用 q - 查询字符串,必须的。查询语句(类似SQL) 相关详细的操作还需lucene 的query 语法 fl - 指定返回那些字段内容,用逗号或空格分隔多个。 start - 返回第一条记录在完整找到结果中的偏移位置,0开始,一般分页用。 rows - 指定返回结果最多有多少条记录,配合start来实现分页。 sort - 排序,格式:sort=<field name>+<desc|asc>[,<field name>+<desc 阅读全文
posted @ 2009-09-16 11:50 searchDM 阅读(840) 评论(0) 推荐(0) 编辑
摘要: 相信很多人,在准备提交数据让solr建立索引的那刻,很纳闷,尽管看了不少网上的一些文章,但是我想依然还是有不少不理解的地方。 比如提交一个xml,采用post方式,尽管有些文章说了可以采用httpclient。但是我那个时候,还不是很理解,当然现在看来其实也没有 什么了。但是对于一个刚入门solr的初学者,我想讲讲关于solr1.3的 solrj( sorlr J 目前使用二进制的格式作为默认的格式。对于solr1.2的用户通过显示的设置才能使用XML格式。)!先上一个例子: Java代码 publicstaticfinalStringSOLR_URL="http://localho 阅读全文
posted @ 2009-09-16 11:49 searchDM 阅读(1005) 评论(0) 推荐(0) 编辑
摘要: Solr Multicore 是 solr 1.3 的新特性。其目的一个solr实例,可以有多个搜索应用。 下面着手来将solr给出的一个example跑出来,在《利用SOLR搭建企业搜索平台 之一(运行solr)》这篇文章里面已经讲了怎样来运行solr,这篇文章是基于《利用SOLR搭建企业搜索平台 之一(运行solr)》,有不明白的请参见http://lianj-lee.javaeye.com/blog/424383 1》找到solr下载包中的example文件夹,在它的下面有个multicore文件夹,将这个文件夹下面的所有东西copy到 c:\solr-tomcat\solr下面。 .. 阅读全文
posted @ 2009-09-16 11:39 searchDM 阅读(723) 评论(0) 推荐(0) 编辑
摘要: 运行solr是个很简单的事,如何让solr高效运行你的项目,这个就不容易了。要考虑的因素太多。这里很重要一个就是对solr的配置要了解。懂得配置文件每个配置项的含义,这样操作起来就会如鱼得水! 在solr里面主要的就是solr的主目录下面的schema.xml,solrConfig.xml,如果你看过前两篇文章的话,你应该知道solr的主目录处于什么位置(c:\solr-tomcat\solr\conf\)。 在这个文章中,我们首先来说说这个schema.xml。 schema.xml,这个相当于数据表配置文件,它定义了加入索引的数据的数据类型的。主要包括types、fields和其他的... 阅读全文
posted @ 2009-09-16 11:38 searchDM 阅读(909) 评论(0) 推荐(0) 编辑
摘要: 这篇文章,主要说的是 怎么在solr中加入中文分词,参考了一些文章,但是还是花了不少时间才搞出的。可能是大侠们太牛了,所以很多细节东西都没有写出来!但是要指出的是很多文章都是抄来抄去的! 入正题: 在上面的一个文章中,已经使solr跑起来了,在上面的基础上,加入中文分词。我用的是paoding分词器! 1》请下好paoding分词器,下载地址: http://code.google.com/p/paoding/downloads/list,在这里要非常感谢paoding作者:qieqie 在使用paoding的时候要注意:paoding的dic位置,也就是字典的位置,有两种办法解决: ... 阅读全文
posted @ 2009-09-16 11:37 searchDM 阅读(917) 评论(0) 推荐(0) 编辑