solr - 随笔分类 - 张小贱1987

ZooKeeper介绍（转载）

摘要：关于ZooKeeper，下面引用了一片文章，原文地址是：http://www.cnblogs.com/wuxl360/p/5817471.html 一、分布式协调技术在给大家介绍ZooKeeper之前先来给大家介绍一种技术——分布式协调技术。那么什么是分布式协调技术？那么我来告诉大家，其实分布式协调技术主要用来解决分布式环境当中多个进程之间的同步控制，让他们有序的去访问某种临界资... 阅读全文

posted @ 2017-09-02 11:00 张小贱1987 阅读(181) 评论(0) 推荐(0)

solrcloud2

摘要：分片的原因由于底层Lucene的限制，每个solr索引中包含的文档数不能超过231个，大约是21亿个。但是solr分片一般不是基于这个的原因，因为一般没有到这个峰值的之后，solr的各中性能问题就暴露出来了。分片一般是为了提高性能，提高吞吐量。复制策略 solr的复制策略和大部分的NOSQL数据库的复制策略不同，不是通过事务日志进行同步的，而是每次写操作都有leader节点分发到每个repli... 阅读全文

posted @ 2017-09-02 10:56 张小贱1987 阅读(223) 评论(0) 推荐(0)

搜索引擎选择： Elasticsearch与Solr（转载）

摘要：原文地址：http://www.cnblogs.com/chowmin/articles/4629220.html 搜索引擎选型调研文档 Elasticsearch简介* Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。它可以用于全文搜索，结构化搜索以及分析，当然你也可以将这三者进行组合。 Elasticsea... 阅读全文

posted @ 2017-08-30 10:29 张小贱1987 阅读(165) 评论(0) 推荐(0)

solr 分面搜索（转载）

摘要：原文地址：http://blog.csdn.net/bingduanlbd/article/details/52199347 分面搜索（Faceting）基于索引词项对搜索结果进行分类，同时返回每个分类对应的文档数。用户可以可以分类缩小结果范围。下图是一个结果汇总的例子： Amazon的搜索也提供了非常优秀的分面及相应的过滤：环境 Solr的发行版自带了一些很好的例... 阅读全文

posted @ 2017-08-30 00:21 张小贱1987 阅读(348) 评论(0) 推荐(0)

solr 中文分词相关（转载）

摘要：smartcn和ik的对比，来自http://www.cnblogs.com/hadoopdev/p/3465556.html 一、引言：中文分词一直是自然语言处理的一个痛处，早在08年的时候，就曾经有项目涉及到相关的应用（Lunce构建全文搜索引擎），那时的痛，没想到5年后的今天依然存在，切分效果、扩展支持、业务应用等方面依然不甚理想。收费的版本不提了，原因自不必言表，开源版本中，发... 阅读全文

posted @ 2017-08-30 00:16 张小贱1987 阅读(279) 评论(0) 推荐(0)

solrcloud

摘要：本文收集自网络，部分内容个人编写。收集了一下网页的内容： http://blog.csdn.net/dingzfang/article/details/42804489 什么是SolrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案，当你需要大规模，容错，分布式索引和检索能力时使用 SolrCloud。当一个系统的索引数据量少的时候是不需要使用SolrClo... 阅读全文

posted @ 2017-08-30 00:16 张小贱1987 阅读(298) 评论(0) 推荐(0)

solr schema.xml配置

摘要：solr使用_version_来做文档的版本控制和修改时加锁（乐观锁） indexed是否索引只能在索引的列上进行查询 stored是否存储只能返回存储的列 required 是否必须 multiValued 是否多值 dynamicField 动态字段 uniqueKey主键列 id copyField 各种fieldtype ： sortMissingLast：排序的时候... 阅读全文

posted @ 2017-08-29 23:31 张小贱1987 阅读(293) 评论(0) 推荐(0)

solrconfig.xml配置文件

摘要：部分来自http://www.jianshu.com/p/8cf609207497 一、总览 solr的配置重要的有三个：solr.xml、solrConfig.xml、schema.xml solr.xml 是整个Solr节点的配置，是定义关于core的管理、collection分片、solr云和http请求处理，不过目前改动不多，也没仔细研究。 solrConfig.xml：关于core或... 阅读全文

posted @ 2017-08-29 17:46 张小贱1987 阅读(4552) 评论(0) 推荐(0)

solr 使用edismax来控制评分

摘要：如何控制评分如果设置了sort字段，那么将会按照sort字段的顺序返回结果。如果没有设置sort字段，那么将会根据相关度打分来排序。也就是说，相关度更高的排在前面。如何来定制适合自身业务的排序打分规则（boost）呢？经过这段时间的思考与实践，想到了如下三个方法：1、定制Lucene的boost算法，加入自己希望的业务规则；2、使用Solr的edismax实现的方法，通过bf查询配置来影响b... 阅读全文

posted @ 2017-08-29 16:26 张小贱1987 阅读(9092) 评论(0) 推荐(0)

solr 打分和排序机制(转载)

摘要：以下来自solr in action。包含：词项频次。查询词项出现在当前查询文档中的次数。反向文档频次。查询词项出现在所有文档总的次数。此项权重。标准化因子：字段规范：文档权重。字段权重。长度归一化。消除长文档的优势。因为长文档的词项频次一般会比较大。协调因子。避免一个文档中出现某一个词项的次数太多导致总分值太大。目的是让结果中包含更多的是出现所有词项的文档。具体说明见下文。... 阅读全文

posted @ 2017-08-29 16:24 张小贱1987 阅读(772) 评论(0) 推荐(0)

solr admin界面的监控

摘要：这里可以看到，solr的版本，lucene的版本，jvm的版本，CPU核数，jvm启动参数，还有物理内存占用，交换空间占用，jvm内存占用。这里可以看到每个core的情况。这里可以看到java的所有properties。这里可以看到当前选中的core的信息。文档数，最大文档数，片段数，删除文档数等。阅读全文

posted @ 2017-08-29 11:43 张小贱1987 阅读(317) 评论(0) 推荐(0)

solr 查询解析器

摘要：定义查询解析器用于将查询语句（q参数）解析成搜索语法。默认解析器：lucene Solr在查询的时候，用到了QueryParser对用户输入做解析，solr默认使用的解析器是lucene，被称之为Standard Query Parser。Standard Query Parser支持原生的查询语法，使你可以方便地构造结构化查询语句。当然，它还有不好的，就是容错比较差，总是把错误抛出来，而不是... 阅读全文

posted @ 2017-08-26 20:50 张小贱1987 阅读(640) 评论(0) 推荐(0)

solr查询参数

摘要：部分摘自：http://blog.csdn.net/u010342038/article/details/52997388 界面：参数说明：注意，以下是对所有的查询解析器都通用的参数。 defType ：选择用来处理查询的查询分析器。 q (query)查询的关键字，此参数最为重要，例如，q=i 阅读全文

posted @ 2017-08-26 17:47 张小贱1987 阅读(1230) 评论(0) 推荐(0)

solr 倒排索引（转载）

摘要：原文地址：http://blog.csdn.net/chichengit/article/details/9235157 http://blog.csdn.net/njpjsoftdev/article/details/54015485 介绍：所谓倒排索引的倒排，其实我感觉定义的不太贴切：正常的文档索引是，描述一个文档有哪些关键字，也就是文档—关键字列表这种结构，但是倒排索引是关键字—... 阅读全文

posted @ 2017-08-26 13:16 张小贱1987 阅读(988) 评论(0) 推荐(0)

solr介绍

摘要：solr架构图：以下是Apache Solr的主要构建块(组件) 请求处理程序 - 发送到Apache Solr的请求由这些请求处理程序处理。请求可以是查询请求或索引更新请求。根据这些请示的要求来选择请求处理程序。为了将请求传递给Solr，通常将处理器映射到某个URI端点，并且它将为指定的请求提供阅读全文

posted @ 2017-08-26 13:02 张小贱1987 阅读(246) 评论(0) 推荐(0)

张小贱1987

随笔分类 - solr