代码改变世界

随笔分类 -  搜索引擎

Solr4.8.0源码分析(27)之ImplicitDocRouter和CompositeIdRouter

2015-02-11 22:10 by 追风的蓝宝, 2278 阅读, 收藏, 编辑
摘要: 同样在公司工作中发现了一个现象,1.我用/solr/admin/collections?action=CREATE&name=collection&numShards=3&replicationFactor=2创建collection2. delete其中的一个shard3. 使用以下命令增加sha... 阅读全文

Solr4.8.0源码分析(26)之Recovery失败造成的宕机原因分析

2015-02-11 22:08 by 追风的蓝宝, 2244 阅读, 收藏, 编辑
摘要: 最近在公司做SolrCloud的容灾测试,刚好碰到了一个比较蛋疼的问题,跟SolrCloud的Recovery和leader选举有关,正好拿出来分析下。现象是这样的:比如我有一台3个shard的SolrCloud,每一个shard又有一个leader和replica。由于SolrCloud的lead... 阅读全文

Solr4.8.0源码分析(25)之SolrCloud的Split流程

2014-12-12 00:15 by 追风的蓝宝, 1288 阅读, 收藏, 编辑
摘要: Solr4.8.0源码分析(25)之SolrCloud的Split流程(一)题记:昨天有位网友问我SolrCloud的split的机制是如何的,这个还真不知道,所以今天抽空去看了Split的原理,大致也了解split的原理了,所以也就有了这篇文章。本系列有两篇文章,第一篇为core split,第二... 阅读全文

Solr4.8.0源码分析(24)之SolrCloud的Recovery策略(五)

2014-12-10 23:44 by 追风的蓝宝, 1225 阅读, 收藏, 编辑
摘要: Solr4.8.0源码分析(24)之SolrCloud的Recovery策略(五)题记:关于SolrCloud的Recovery策略已经写了四篇了,这篇应该是系统介绍Recovery策略的最后一篇了。本文主要介绍Solr的主从同步复制。它与前文略有不同,前文讲到的是SolrCloud的leader与... 阅读全文

Solr4.8.0源码分析(23)之SolrCloud的Recovery策略(四)

2014-12-08 23:05 by 追风的蓝宝, 1464 阅读, 收藏, 编辑
摘要: Solr4.8.0源码分析(23)之SolrCloud的Recovery策略(四)题记:本来计划的SolrCloud的Recovery策略的文章是3篇的,但是没想到Recovery的内容蛮多的,前面三章分别介绍了Recovery的原理和总体流程,PeerSync策略,Replication策略。本章... 阅读全文

Solr4.8.0源码分析(22)之SolrCloud的Recovery策略(三)

2014-12-06 23:48 by 追风的蓝宝, 1787 阅读, 收藏, 编辑
摘要: Solr4.8.0源码分析(22)之SolrCloud的Recovery策略(三) 本文是SolrCloud的Recovery策略系列的第三篇文章,前面两篇主要介绍了Recovery的总体流程,以及PeerSync策略。本文以及后续的文章将重点介绍Replication策略。Replication... 阅读全文

Solr4.8.0源码分析(21)之SolrCloud的Recovery策略(二)

2014-12-06 00:08 by 追风的蓝宝, 1526 阅读, 收藏, 编辑
摘要: Solr4.8.0源码分析(21)之SolrCloud的Recovery策略(二)题记: 前文中提到Recovery有两种策略,一是PeerSync和Replication。本节将具体介绍下PeerSync策略。 PeeySync是Solr的优先选择策略,每当需要进行recovery了,Solr总... 阅读全文

Solr4.8.0源码分析(20)之SolrCloud的Recovery策略(一)

2014-12-05 00:07 by 追风的蓝宝, 3928 阅读, 收藏, 编辑
摘要: Solr4.8.0源码分析(20)之SolrCloud的Recovery策略(一)题记: 我们在使用SolrCloud中会经常发现会有备份的shard出现状态Recoverying,这就表明SolrCloud的数据存在着不一致性,需要进行Recovery,这个时候的SolrCloud建索引是不会... 阅读全文

Solr4.8.0源码分析(19)之缓存机制(二)

2014-11-30 23:42 by 追风的蓝宝, 753 阅读, 收藏, 编辑
摘要: Solr4.8.0源码分析(19)之缓存机制(二) 前文介绍了Solr缓存的生命周期,重点介绍了Solr缓存的warn过程。本节将更深入的来介绍下Solr的四种缓存类型,以及两种SolrCache接口实现类。1、SolrCache接口实现类 前文已经提到SolrCache有两种接口实现类:sol... 阅读全文

Solr4.8.0源码分析(18)之缓存机制(一)

2014-11-26 23:02 by 追风的蓝宝, 1312 阅读, 收藏, 编辑
摘要: Solr4.8.0源码分析(18)之缓存机制(一) 前文在介绍commit的时候具体介绍了getSearcher()的实现,并提到了Solr的预热warn。那么本文开始将详细来学习下Solr的缓存机制。1. 简介 Solr目前支持4中cache类型,每种缓存对应一种查询类型。filterCach... 阅读全文

Solr4.8.0源码分析(17)之SolrCloud索引深入(4)

2014-11-23 23:56 by 追风的蓝宝, 3535 阅读, 收藏, 编辑
摘要: Solr4.8.0源码分析(17)之SolrCloud索引深入(4) 前面几节以add为例已经介绍了solrcloud索引链建索引的三步过程,delete以及deletebyquery跟add过程大同小异,这里暂时就不介绍了。由于commit流程较为特殊,那么本节主要简要介绍下commit的流程... 阅读全文

Solr4.8.0源码分析(16)之SolrCloud索引深入(3)

2014-11-18 23:11 by 追风的蓝宝, 2355 阅读, 收藏, 编辑
摘要: Solr4.8.0源码分析(16)之SolrCloud索引深入(3) 前面两节学习了SolrCloud索引过程以及索引链的前两步,LogUpdateProcessorFactory和DistributedUpdateProcessor。本节将详细介绍了索引链的第三步DirectUpdateHan... 阅读全文

Solr4.8.0源码分析(15) 之 SolrCloud索引深入(2)

2014-11-11 23:55 by 追风的蓝宝, 1795 阅读, 收藏, 编辑
摘要: 转载请注明地址http://www.cnblogs.com/rcfeng/ 阅读全文

Solr4.8.0源码分析(14)之SolrCloud索引深入(1)

2014-11-10 23:28 by 追风的蓝宝, 2166 阅读, 收藏, 编辑
摘要: Solr4.8.0源码分析(14)之 SolrCloud索引深入(1) 上一章节《Solr In Action 笔记(4) 之 SolrCloud分布式索引基础》简要学习了SolrCloud的索引过程,本节开始将通过阅读源码来深入学习下SolrCloud的索引过程。1. SolrCloud的索引过... 阅读全文

Solr In Action 笔记(4) 之 SolrCloud分布式索引基础

2014-11-07 23:38 by 追风的蓝宝, 4026 阅读, 收藏, 编辑
摘要: Solr In Action 笔记(4) 之 SolrCloud Index 基础 SolrCloud Index流程研究了两天,还是没有完全搞懂,先简单记下基础的知识,过几天再写个深入点的。先补充上前文来不及写的内容。1. Solr.xml的重要配置 Solr.xml的内容如下: 1 2 ... 阅读全文

Solr In Action 笔记(3) 之 SolrCloud基础

2014-11-07 00:00 by 追风的蓝宝, 3741 阅读, 收藏, 编辑
摘要: Solr In Action 笔记(3) 之 SolrCloud基础在Solr中,一个索引的实例称之为Core,而在SolrCloud中,一个索引的实例称之为Shard;Shard 又分为leader和replica。1. SolrCloud的特质作为分布式搜索引擎的SolrCloud具有以下几个特... 阅读全文

Solr In Action 笔记(2) 之 评分机制(相似性计算)

2014-11-01 22:43 by 追风的蓝宝, 6227 阅读, 收藏, 编辑
摘要: Solr In Action 笔记(2) 之评分机制(相似性计算)1 简述 我们对搜索引擎进行查询时候,很少会有人进行翻页操作。这就要求我们对索引的内容提取具有高度的匹配性,这就搜索引擎文档的相似性计算,如何准确的选出最符合查询条件的文档。 《这就是搜索引擎》里面对相似性计算进行了简单的介绍。 ... 阅读全文

自然语言处理(5)之Levenshtein最小编辑距离算法

2014-11-01 21:52 by 追风的蓝宝, 1956 阅读, 收藏, 编辑
摘要: 自然语言处理(5)之Levenshtein最小编辑距离算法题记:之前在公司使用Levenshtein最小编辑距离算法来实现相似车牌的计算的特性开发,正好本节来总结下Levenshtein最小编辑距离算法。算法简介: Levenshtein距离,是俄罗斯科学家Vladimir Levenshtei... 阅读全文

Solr In Action 笔记(1) 之 Key Solr Concepts

2014-10-31 00:04 by 追风的蓝宝, 1885 阅读, 收藏, 编辑
摘要: Solr In Action 笔记(1) 之 Key Solr Concepts题记:看了下《Solr In Action》还是收益良多的,只是奈何没有中文版,只能查看英语原版有点类,第一次看整本的英语书,就当复习下英语并顺便做下笔记吧。1. Solr的框架从这张图上看Solr的组件还是很齐全以及清... 阅读全文

Solr4.8.0源码分析(13)之LuceneCore的索引修复

2014-10-23 00:16 by 追风的蓝宝, 1659 阅读, 收藏, 编辑
摘要: Solr4.8.0源码分析(13)之LuceneCore的索引修复题记:今天在公司研究elasticsearch,突然看到一篇博客说elasticsearch具有索引修复功能,顿感好奇,于是点进去看了下,发现原来是Lucene Core自带的功能。说实话之前学习Lucene文件格式的时候就想做一个索... 阅读全文