随笔分类 -  solr

ZooKeeper介绍(转载)
摘要:关于ZooKeeper,下面引用了一片文章,原文地址是:http://www.cnblogs.com/wuxl360/p/5817471.html 一、分布式协调技术 在给大家介绍ZooKeeper之前先来给大家介绍一种技术——分布式协调技术。那么什么是分布式协调技术?那么我来告诉大家,其实分布式协调技术 主要用来解决分布式环境当中多个进程之间的同步控制,让他们有序的去访问某种临界资... 阅读全文

posted @ 2017-09-02 11:00 张小贱1987 阅读(178) 评论(0) 推荐(0)

solrcloud2
摘要:分片的原因 由于底层Lucene的限制,每个solr索引中包含的文档数不能超过231个,大约是21亿个。但是solr分片一般不是基于这个的原因,因为一般没有到这个峰值的之后,solr的各中性能问题就暴露出来了。分片一般是为了提高性能,提高吞吐量。 复制策略 solr的复制策略和大部分的NOSQL数据库的复制策略不同,不是通过事务日志进行同步的,而是每次写操作都有leader节点分发到每个repli... 阅读全文

posted @ 2017-09-02 10:56 张小贱1987 阅读(222) 评论(0) 推荐(0)

搜索引擎选择: Elasticsearch与Solr(转载)
摘要:原文地址:http://www.cnblogs.com/chowmin/articles/4629220.html 搜索引擎选型调研文档 Elasticsearch简介* Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。 它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。 Elasticsea... 阅读全文

posted @ 2017-08-30 10:29 张小贱1987 阅读(164) 评论(0) 推荐(0)

solr 分面搜索(转载)
摘要:原文地址:http://blog.csdn.net/bingduanlbd/article/details/52199347 分面搜索(Faceting)基于索引词项对搜索结果进行分类,同时返回每个分类对应的文档数。用户可以可以分类缩小结果范围。下图是一个结果汇总的例子: Amazon的搜索也提供了非常优秀的分面及相应的过滤: 环境 Solr的发行版自带了一些很好的例... 阅读全文

posted @ 2017-08-30 00:21 张小贱1987 阅读(347) 评论(0) 推荐(0)

solr 中文分词相关(转载)
摘要:smartcn和ik的对比,来自http://www.cnblogs.com/hadoopdev/p/3465556.html 一、引言: 中文分词一直是自然语言处理的一个痛处,早在08年的时候,就曾经有项目涉及到相关的应用(Lunce构建全文搜索引擎),那时的痛,没想到5年后的今天依然存在,切分效果、扩展支持、业务应用等方面依然不甚理想。收费的版本不提了,原因自不必言表,开源版本中,发... 阅读全文

posted @ 2017-08-30 00:16 张小贱1987 阅读(279) 评论(0) 推荐(0)

solrcloud
摘要:本文收集自网络,部分内容个人编写。收集了一下网页的内容: http://blog.csdn.net/dingzfang/article/details/42804489 什么是SolrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud。当一个系统的索引数据量少的时候是不需要使用SolrClo... 阅读全文

posted @ 2017-08-30 00:16 张小贱1987 阅读(296) 评论(0) 推荐(0)

solr schema.xml配置
摘要:solr使用_version_来做文档的版本控制和修改时加锁(乐观锁) indexed是否索引 只能在索引的列上进行查询 stored是否存储 只能返回存储的列 required 是否必须 multiValued 是否多值 dynamicField 动态字段 uniqueKey主键列 id copyField 各种fieldtype : sortMissingLast:排序的时候... 阅读全文

posted @ 2017-08-29 23:31 张小贱1987 阅读(292) 评论(0) 推荐(0)

solrconfig.xml配置文件
摘要:部分来自http://www.jianshu.com/p/8cf609207497 一、总览 solr的配置重要的有三个:solr.xml、solrConfig.xml、schema.xml solr.xml 是整个Solr节点的配置,是定义关于core的管理、collection分片、solr云 和http请求处理,不过目前改动不多,也没仔细研究。 solrConfig.xml:关于core或... 阅读全文

posted @ 2017-08-29 17:46 张小贱1987 阅读(4552) 评论(0) 推荐(0)

solr 使用edismax来控制评分
摘要:如何控制评分 如果设置了sort字段,那么将会按照sort字段的顺序返回结果。 如果没有设置sort字段,那么将会根据相关度打分来排序。也就是说,相关度更高的排在前面。 如何来定制适合自身业务的排序打分规则(boost)呢?经过这段时间的思考与实践,想到了如下三个方法:1、定制Lucene的boost算法,加入自己希望的业务规则;2、使用Solr的edismax实现的方法,通过bf查询配置来影响b... 阅读全文

posted @ 2017-08-29 16:26 张小贱1987 阅读(9090) 评论(0) 推荐(0)

solr 打分和排序机制(转载)
摘要:以下来自solr in action。 包含: 词项频次。查询词项出现在当前查询文档中的次数。 反向文档频次。查询词项出现在所有文档总的次数。 此项权重。 标准化因子: 字段规范: 文档权重。 字段权重。 长度归一化。消除长文档的优势。因为长文档的词项频次一般会比较大。 协调因子。避免一个文档中出现某一个词项的次数太多导致总分值太大。目的是让结果中包含更多的是出现所有词项的文档。 具体说明见下文。... 阅读全文

posted @ 2017-08-29 16:24 张小贱1987 阅读(770) 评论(0) 推荐(0)

solr admin界面的监控
摘要:这里可以看到,solr的版本,lucene的版本,jvm的版本,CPU核数,jvm启动参数,还有物理内存占用,交换空间占用,jvm内存占用。 这里可以看到每个core的情况。 这里可以看到java的所有properties。 这里可以看到当前选中的core的信息。文档数,最大文档数,片段数,删除文档数等。 阅读全文

posted @ 2017-08-29 11:43 张小贱1987 阅读(315) 评论(0) 推荐(0)

solr 查询解析器
摘要:定义 查询解析器用于将查询语句(q参数)解析成搜索语法。 默认解析器:lucene Solr在查询的时候,用到了QueryParser对用户输入做解析,solr默认使用的解析器是lucene,被称之为Standard Query Parser。Standard Query Parser支持原生的查询语法,使你可以方便地构造结构化查询语句。当然,它还有不好的,就是容错比较差,总是把错误抛出来,而不是... 阅读全文

posted @ 2017-08-26 20:50 张小贱1987 阅读(634) 评论(0) 推荐(0)

solr查询参数
摘要:部分摘自:http://blog.csdn.net/u010342038/article/details/52997388 界面: 参数说明: 注意,以下是对所有的查询解析器都通用的参数。 defType :选择用来处理查询的查询分析器。 q (query)查询的关键字,此参数最为重要,例如,q=i 阅读全文

posted @ 2017-08-26 17:47 张小贱1987 阅读(1227) 评论(0) 推荐(0)

solr 倒排索引(转载)
摘要:原文地址:http://blog.csdn.net/chichengit/article/details/9235157 http://blog.csdn.net/njpjsoftdev/article/details/54015485 介绍: 所谓倒排索引的倒排,其实我感觉定义的不太贴切:正常的文档索引是,描述一个文档有哪些关键字,也就是文档—关键字列表这种结构,但是倒排索引是关键字—... 阅读全文

posted @ 2017-08-26 13:16 张小贱1987 阅读(988) 评论(0) 推荐(0)

solr介绍
摘要:solr架构图: 以下是Apache Solr的主要构建块(组件) 请求处理程序 - 发送到Apache Solr的请求由这些请求处理程序处理。请求可以是查询请求或索引更新请求。根据这些请示的要求来选择请求处理程序。为了将请求传递给Solr,通常将处理器映射到某个URI端点,并且它将为指定的请求提供 阅读全文

posted @ 2017-08-26 13:02 张小贱1987 阅读(245) 评论(0) 推荐(0)

导航