随笔分类 - SOLR/LUCENE/全文检索
摘要:为了解决写索引时频繁提交带来的效率问题,考虑使用自动提交。在solrconfig.xml中增加以下代码: 1000 10000 maxDocs:当内存索引数量达到指定值的时候,将内存的索引DUMP到硬盘中,并通知searcher类...
阅读全文
摘要:说明:由于solr底层使用的是lucene,因此修改solr打分机制归根结底还是依赖于lucene的打分机制,本文主要讨论lucene的打分机制。本文说明lucene 常用的四种影响评分结果的方式。 1、document设置boost 2、Field设置boost 3、查询时设置boost 4、扩展Similarity实现。一、document设置boost: 暂缺。二、Field设置boost: 暂缺。三、查询时设置boost: 暂缺。四、扩展Similarity实现: 暂缺。
阅读全文
摘要:Solr中虽然提供了一个中文分词器,但是效果很差,可以使用IKAnalyzer或Mmseg4j或其他中文分词器。一、IKAnalyzer分词器配置: 1、下载IKAnalyzer(IKAnalyzer2012_u6)包,当前使用版本IKAnalyzer2012_u6.jar 2、将IKAnalyzer2012_u6包下的IKAnalyzer.cfg.xml和stopword.dic复制到solr应用/WEB-INF/classes下。 3、在${solr_home}/[core路径下]/conf/schema.xml中增加一个自定义fieldType: ...
阅读全文
摘要:solrconfig.xml包含了用于配置自身行为的绝大部分参数,其作用范围是当前core。该文件位于${solr_home}/solr/core1/conf/下。参数列表概览: A、lib B、dataDir parameter C、directoryFactory D、codecFactory E、indexConfig Section F、Update Handler Section G、The Query Section H、Request Dispatcher I、Request Handler Plug-in Section J、UpdateRequestPro...
阅读全文
摘要:该配置文件中的标签:、、、fieldType说明标签types中定义了field可以使用的类型,类型定义中可以指定document中字段的常用属性及分词规则。solr中提供了多个预定义的fieldType,另外用户也可以自定义fieldType(比如中文分词的配置)。一、fieldType常用属性:A、name: 字段类型名 B、class: java类名 C、indexed: 缺省true。 说明这个数据应被搜索和排序,如果数据没有indexed,则stored应是true。 D、stored: 缺省true。说明这个字段被包含在搜索结果中是合适的。...
阅读全文
摘要:--> 该文件位于索引库的根目录下,用于定义索引库核心。
阅读全文
摘要:由于solr底层使用lucene,所以很多概念与lucene相同,下面是几个常用的概念:*Document:一个要进行索引的单元,相当于数据库的一行纪录,任何想要被索引的数据,都必须转化为Document对象存放。*Field:Document中的一个字段,相当于数据库中的Column,Field是lucene比较多概念一个术语,详细见后。*IndexWriter:负责将Document写入索引文件。通常情况下,IndexWriter的构造函数包括了以下3个参数:索引存放的路径,分析器和是否重新创建索引。特别注意的一点,当IndexWriter执行完addDocument方法后,一定要记得调用
阅读全文
摘要:Solr作为一个web应用来启动,因此需要JDK支持,需要WEB容器,本文环境如下:JDK6.0或以上(环境变量设置等不再赘述)Tomcat-6.0.35或以上(自行下载)apache-solr-3.6.2.zip(http://www.apache.org/dyn/closer.cgi/lucene/solr/)Windows 7 :Solr提供了一个WEB应用,位于apache-solr-3.6.2解压包的/dist文件夹下,即apache-solr-3.6.2.war文件,为了方便访问,改名为solr.war。SolrWEB应用的前提条件: 1、首先将war包解压为solr目录,解...
阅读全文
摘要:一、前言:为何选择Solr由于搜索引擎功能在门户社区中对提高用户体验有着重在门户社区中涉及大量需要搜索引擎的功能需求,目前在实现搜索引擎的方案上有几种方案可供选择: 1.基于Lucene自己进行封装实现站内搜索。工作量及扩展性都较大,不采用。 2.调用Google、Baidu的API实现站内搜索。同第三方搜索引擎绑定太死,无法满足后期业务扩展需要,暂时不采用。 3.基于Compass+Lucene实现站内搜索。适合于对数据库驱动的应用数据进行索引,尤其是替代传统的like‘%expression%’来实现对varchar或clob等字段的索引,对于实现站内搜索是一种值得采纳的方案。但在分...
阅读全文
摘要:官网上一般只提供最新版本的下载,下面两个链接为所有历史版本的下载地址:lucene地址:archive.apache.org/dist/lucene/java/solr地址:archive.apache.org/dist/lucene/solr/在Solr1.4.x的时候,Solr和Lucene是独立发布的,Solr一般会在Lucene发布新版本后跟进发布一个新的版本。到了3.1的时候,两者代码做了合并,版本号统一了,并同时发布。
阅读全文

浙公网安备 33010602011771号