Solr In Action 笔记(4) 之 SolrCloud分布式索引基础

2014-11-07 23:38 追风的蓝宝阅读(4052) 评论(1) 收藏举报

Solr In Action 笔记(4) 之 SolrCloud Index 基础

SolrCloud Index流程研究了两天，还是没有完全搞懂，先简单记下基础的知识，过几天再写个深入点的。先补充上前文来不及写的内容。

1. Solr.xml的重要配置

Solr.xml的内容如下：

 1 <solr>
 2   <solrcloud>
 3     <str name="host">${host:}</str>
 4     <int name="hostPort">${jetty.port:8983}</int>
 5     <str name="hostContext">${hostContext:solr}</str>
 6     <int name="zkClientTimeout">${zkClientTimeout:15000}</int>
 7     <bool name="genericCoreNodeNames">${genericCoreNodeNames:true}</bool>
 8   </solrcloud>
 9   <shardHandlerFactory name="shardHandlerFactory"
10     class="HttpShardHandlerFactory">
11     <int name="socketTimeout">${socketTimeout:0}</int>
12     <int name="connTimeout">${connTimeout:0}</int>
13   </shardHandlerFactory>
14 </solr>

host ， host 指的是Solr节点的IP地址，当Solr节点上线时候，它会向Zookeeper进行注册，注册信息如IP地址就会存储在/clusterstate.json中。这里不但可以直接使用host IP地址如192.168.1.0，也可以使用机器的hostname比如bigdata01。
port ， port 指的时Solr用来监听的端口，默认是8983，同样它会存储在/clusterstate.json中。
Solr Host Context，指的是Solr.war部署的环境路径，多数情况下不用修改。
zookeeper client timeout，上一节讲到过，zookeeper Znode节点变化最大反应时间。
core node name, 该节点控制Solr core的命名策略，如果genericCoreNodeNames为true，那么Solr会给core取普通的名字比如，core_node1 ；如果设为true，则会给core取容易辨别的名字，比如带上host信息，比如10.0.1.7:8983_solr_logmill
Leader Vote Wait Period：

该参数并未直接在solr.xml中列出来，SolrCloud的leader和其他replica下线只剩最后一个replica的时候，这个Replica并不会立马选举leader，他会等待一段时间，查看leader是否上线，如果上线了，那么leader仍然还是leader，replica仍然还是replica，如果在这个时间段外leader没有上线，那么replica就变为leader了。这个时间就是Leader Vote Wait Period，它的存在防止了当leader和其他replica下线时候，具有旧的数据的node选为leader。

比如以下一个例子，一个shard有两个node，X为leader，Y为replica，如果X在线，Y下线，那么X仍然可以接受update请求，SolrCloud仍然继续正常运行，只不过leader X不需要再把数据分发给Y了，Y上线后X只需要简单将数据同步给Y就行（Peer sync 策略)。如果X下线，Y在线，那么这个时候因为没有leader接受update请求以及没有leader转发数据，Y是不会接收到update请求的，所以这个时候的SolrCloud的所以建立是无法进行的，所以一旦X挂了SolrCloud就会进行leader选举，但是我们不能立马让Y变为leader，因为Y的数据相比较X来说是旧的数据。如果Y选举为Leader了，那么后续的update他就会接受，过段时间X上线了，由于Y已经是leader了所以X只能是replica，数据的流向变成了Y转发到X，这个时候就发现了奇怪的现象就是X中有部分数据新于Y（Y当选为leader前的数据），Y中有部分数据也新于X（Y当选为leader后的数据），这个时候就需要启动Snapshot replication 策略进行数据复原了，比较麻烦。如果设置了leaderVoteWait 那么X下线后，Y会等待leaderVoteWait时间，这个时间内update操作都是失败的，如果在这时间内X上线了，那么X立马恢复leader状态继续工作，否则就会Y就会变成leader。

要改善这种情况，可以增加shard和replica的数量，较少leader和replica同时挂掉的可能性。

zkHost，同样没有出现在上面的solr.xml上，它可以在solr.xml的zkHost配置中设置zookeepr集群信息比如192.168.0.1:2181,192.168.0.2:2181表示两个zookeeper组成一个zookeeper集群。

2. SolrCloud的分布式建索引

2.1 Document的Hash

建好的SolrCloud集群每一个shard都会有一个Hash区间，当Document进行update的时候，SolrCloud就会计算这个Document的Hash值，然后根据该值和shard的hash区间来判断这个document应该发往哪个shard，所以首先让我们先来学习下SolrCloud的hash算法。Solr使用document route组件来进行document的分发。目前Solr有两个DocRouter类的子类CompositeIdRouter(Solr默认采用的)类和ImplicitDocRouter类，当然我们也可以通过继承DocRouter来定制化我们的document route组件。

之前我们学习过，当Solr Shard建立时候，Solr会给每一个shard分配32bit的hash值的区间，比如SolrCloud有两个shard分别为A,B，那么A的hash值区间就为 80000000-ffffffff ，B的hash值区间为0-7fffffff 。默认的CompositeIdRouter hash策略会根据document ID计算出唯一的Hash值，并判断该值在那个shard的hash区间内。

SolrCloud对于Hash值的获取提出了以下几个要求：

hash计算速度必须快，因为hash计算是分布式建索引的第一步，SolrCloud不可能在这一不上花很多时间。
hash值必须能均匀的分布于每一个shard，如果有一个shard的document数量大于另一个shard，那么在查询的时候前一个shard所花的时间就会大于后一个，SolrCloud的查询是先分后汇总的过程，也就是说最后每一个shard查询完毕才算完毕，所以SolrCloud的查询速度是由最慢的shard的查询速度决定的。我们有理由让SolrCloud做好充分的负载均衡。

基于以上两点，SolrCloud采用了MurmurHash 算法，那么让我们先来看下该算法的代码，说实话这个代码我真没看懂，等下次独立写个章节学习下MurmurHash算法吧。

  1 /** Returns the MurmurHash3_x86_32 hash of the UTF-8 bytes of the String without actually encoding
  2    * the string to a temporary buffer.  This is more than 2x faster than hashing the result
  3    * of String.getBytes().
  4    */
  5   public static int murmurhash3_x86_32(CharSequence data, int offset, int len, int seed) {
  6 
  7     final int c1 = 0xcc9e2d51;
  8     final int c2 = 0x1b873593;
  9 
 10     int h1 = seed;
 11 
 12     int pos = offset;
 13     int end = offset + len;
 14     int k1 = 0;
 15     int k2 = 0;
 16     int shift = 0;
 17     int bits = 0;
 18     int nBytes = 0;   // length in UTF8 bytes
 19 
 20 
 21     while (pos < end) {
 22       int code = data.charAt(pos++);
 23       if (code < 0x80) {
 24         k2 = code;
 25         bits = 8;
 26 
 27         /***
 28          // optimized ascii implementation (currently slower!!! code size?)
 29          if (shift == 24) {
 30          k1 = k1 | (code << 24);
 31 
 32          k1 *= c1;
 33          k1 = (k1 << 15) | (k1 >>> 17);  // ROTL32(k1,15);
 34          k1 *= c2;
 35 
 36          h1 ^= k1;
 37          h1 = (h1 << 13) | (h1 >>> 19);  // ROTL32(h1,13);
 38          h1 = h1*5+0xe6546b64;
 39 
 40          shift = 0;
 41          nBytes += 4;
 42          k1 = 0;
 43          } else {
 44          k1 |= code << shift;
 45          shift += 8;
 46          }
 47          continue;
 48          ***/
 49 
 50       }
 51       else if (code < 0x800) {
 52         k2 = (0xC0 | (code >> 6))
 53             | ((0x80 | (code & 0x3F)) << 8);
 54         bits = 16;
 55       }
 56       else if (code < 0xD800 || code > 0xDFFF || pos>=end) {
 57         // we check for pos>=end to encode an unpaired surrogate as 3 bytes.
 58         k2 = (0xE0 | (code >> 12))
 59             | ((0x80 | ((code >> 6) & 0x3F)) << 8)
 60             | ((0x80 | (code & 0x3F)) << 16);
 61         bits = 24;
 62       } else {
 63         // surrogate pair
 64         // int utf32 = pos < end ? (int) data.charAt(pos++) : 0;
 65         int utf32 = (int) data.charAt(pos++);
 66         utf32 = ((code - 0xD7C0) << 10) + (utf32 & 0x3FF);
 67         k2 = (0xff & (0xF0 | (utf32 >> 18)))
 68             | ((0x80 | ((utf32 >> 12) & 0x3F))) << 8
 69             | ((0x80 | ((utf32 >> 6) & 0x3F))) << 16
 70             |  (0x80 | (utf32 & 0x3F)) << 24;
 71         bits = 32;
 72       }
 73 
 74 
 75       k1 |= k2 << shift;
 76 
 77       // int used_bits = 32 - shift;  // how many bits of k2 were used in k1.
 78       // int unused_bits = bits - used_bits; //  (bits-(32-shift)) == bits+shift-32  == bits-newshift
 79 
 80       shift += bits;
 81       if (shift >= 32) {
 82         // mix after we have a complete word
 83 
 84         k1 *= c1;
 85         k1 = (k1 << 15) | (k1 >>> 17);  // ROTL32(k1,15);
 86         k1 *= c2;
 87 
 88         h1 ^= k1;
 89         h1 = (h1 << 13) | (h1 >>> 19);  // ROTL32(h1,13);
 90         h1 = h1*5+0xe6546b64;
 91 
 92         shift -= 32;
 93         // unfortunately, java won't let you shift 32 bits off, so we need to check for 0
 94         if (shift != 0) {
 95           k1 = k2 >>> (bits-shift);   // bits used == bits - newshift
 96         } else {
 97           k1 = 0;
 98         }
 99         nBytes += 4;
100       }
101 
102     } // inner
103 
104     // handle tail
105     if (shift > 0) {
106       nBytes += shift >> 3;
107       k1 *= c1;
108       k1 = (k1 << 15) | (k1 >>> 17);  // ROTL32(k1,15);
109       k1 *= c2;
110       h1 ^= k1;
111     }
112 
113     // finalization
114     h1 ^= nBytes;
115 
116     // fmix(h1);
117     h1 ^= h1 >>> 16;
118     h1 *= 0x85ebca6b;
119     h1 ^= h1 >>> 13;
120     h1 *= 0xc2b2ae35;
121     h1 ^= h1 >>> 16;
122 
123     return h1;
124   }

最后我们再简单地学习下hash计算的源码吧：

SolrCloud 利用CompositeIdRouter.sliceHash来计算document的hash

 1   public int sliceHash(String id, SolrInputDocument doc, SolrParams params, DocCollection collection) {
 2     String shardFieldName = getRouteField(collection);
 3     if (shardFieldName != null && doc != null) {
 4       Object o = doc.getFieldValue(shardFieldName);
 5       if (o == null)
 6         throw new SolrException(SolrException.ErrorCode.BAD_REQUEST, "No value for :" + shardFieldName + ". Unable to identify shard");
 7       id = o.toString();
 8     }
 9     if (id.indexOf(SEPARATOR) < 0) {
10       return Hash.murmurhash3_x86_32(id, 0, id.length(), 0);
11     }
12 
13     return new KeyParser(id).getHash();
14   }

根据计算出来的hash值计算应该将document发往哪些节点

 1 public Collection<Slice> getSearchSlicesSingle(String shardKey, SolrParams params, DocCollection collection) {
 2     if (shardKey == null) {
 3       // search across whole collection
 4       // TODO: this may need modification in the future when shard splitting could cause an overlap
 5       return collection.getActiveSlices();
 6     }
 7     String id = shardKey;
 8 
 9     if (shardKey.indexOf(SEPARATOR) < 0) {
10       // shardKey is a simple id, so don't do a range
11       return Collections.singletonList(hashToSlice(Hash.murmurhash3_x86_32(id, 0, id.length(), 0), collection));
12     }
13 
14     Range completeRange = new KeyParser(id).getRange();
15 
16     List<Slice> targetSlices = new ArrayList<>(1);
17     for (Slice slice : collection.getActiveSlices()) {
18       Range range = slice.getRange();
19       if (range != null && range.overlaps(completeRange)) {
20         targetSlices.add(slice);
21       }
22     }
23 
24     return targetSlices;
25   }

最后，看下SolrCloud是怎么划分shard的hash值区间的。以下代码需要注意几点，
- boolean round = rangeStep >= (1 << bits) * 16 判断shard个数是否小于4096个，如果round为true，肯定小于4096个，也就是每个shard的区间长度大于 (1 << bits) * 16
- int mask = 0x0000ffff; end & mask != mask 表示判断shard个数不是2的指数次，如果shard个数是2的指数次那么shard的区间肯定是mask的整数倍，也就是说end & mask后最后的16位全为1即0xffff。
- end - roundDown < roundUp - end ；当shard个数不是2的指数次时，end离哪个边界近就设置为哪个边界(这里的边界是0x0000ffff的整数倍)。
- 从上面得知，shard的区间得满足0x0000ffff的整数倍

 1 public List<Range> partitionRange(int partitions, Range range) {
 2     int min = range.min;
 3     int max = range.max;
 4 
 5     assert max >= min;
 6     if (partitions == 0) return Collections.EMPTY_LIST;
 7     long rangeSize = (long) max - (long) min;
 8     long rangeStep = Math.max(1, rangeSize / partitions);
 9 
10     List<Range> ranges = new ArrayList<>(partitions);
11 
12     long start = min;
13     long end = start;
14 
15     // keep track of the idealized target to avoid accumulating rounding errors
16     long targetStart = min;
17     long targetEnd = targetStart;
18 
19     // Round to avoid splitting hash domains across ranges if such rounding is not significant.
20     // With default bits==16, one would need to create more than 4000 shards before this
21     // becomes false by default.
22     int mask = 0x0000ffff;
23     boolean round = rangeStep >= (1 << bits) * 16;
24 
25     while (end < max) {
26       targetEnd = targetStart + rangeStep;
27       end = targetEnd;
28 
29       if (round && ((end & mask) != mask)) {
30         // round up or down?
31         int increment = 1 << bits;  // 0x00010000
32         long roundDown = (end | mask) - increment;
33         long roundUp = (end | mask) + increment;
34         if (end - roundDown < roundUp - end && roundDown > start) {
35           end = roundDown;
36         } else {
37           end = roundUp;
38         }
39       }
40 
41       // make last range always end exactly on MAX_VALUE
42       if (ranges.size() == partitions - 1) {
43         end = max;
44       }
45       ranges.add(new Range((int) start, (int) end));
46       start = end + 1L;
47       targetStart = targetEnd + 1L;
48     }
49 
50     return ranges;
51   }

2.2 ADD Document过程

SolrCloud进行update/add document的过程是采用的索引链的方式，暂时我还没看懂，所以本节先不讲代码，大致学习原理以及过程，下节再开一章讲述下Add document的过程。整个过程我们从Solrj客户端讲起。

当SolrJ 发送update请求给CloudSolrServer ，CloudSolrServer会连接至Zookeeper获取当前SolrCloud的集群状态，并会在/clusterstate.json 和/live_nodes 注册watcher，便于监视Zookeeper和SolrCloud，这样做的好处有以下几点：
- CloudSolrServer获取到SolrCloud的状态后，它能跟直接将document发往SolrCloud的leader，降低网络转发消耗。
- 注册watcher有利于建索引时候的负载均衡，比如如果有个节点leader下线了，那么CloudSolrServer会立马得知，那它就会停止往下线leader发送document。
路由document至正确的shard。CloudSolrServer 在发送document时候需要知道发往哪个shard，这就是上一小节2.1讲过的内容，但是这里需要注意，单个document的路由非常简单，但是SolrCloud支持批量add，也就是说正常情况下N个document同时进行路由。这个时候SolrCloud就会根据document路由的去向分开存放document即进行分类，然后进行并发发送至相应的shard，这就需要较高的并发能力。
Leader接受到update请求后，先将update信息存放到本地的update log，同时Leader还会给documrnt分配新的version，对于已存在的document，Leader就会验证分配的新version与已有的version，如果新的版本高就会抛弃旧版本，最后发送至replica。
一旦document经过验证以及加入version后，就会并行的被转发至所有上线的replica。SolrCloud并不会关注那些已经下线的replica，因为当他们上线时候会有recovery进程对他们进行恢复。如果转发的replica处于recovering状态，那么这个replica就会把update放入update transaction 日志。
当leader接受到所有的replica的反馈成功后，它才会反馈客户端成功。只要shard中又一个replica是active的，Solr就会继续接受update请求。这一策略其实是牺牲了一致性换取了写入的有效性。之前我们讲到leaderVoteWait参数，它表示当只有一个replica时候，这个replica会进入recovering状态并持续一段时间等待leader的重新上线。那么如果在这段时间内leader没有上线，那么他就会转成leader会有一些document丢失。(这里我有点不明白，既然leader挂了，难道update 请求还会发送成功？如果成功是发往哪的？) 当然后续会有方法来避免这个情况，比如使用majority quorum 策略，跟Zookeeper的leader选举策略一样，比如当多数的replica下线了，那么客户端的write就会失败。
最后的步骤就是commit了，commit有两种，一种是softcommit，即在内存中生成segment，document是可见的(可查询到)但是没有写入磁盘，断电后数据丢失。另一种是hardcommit，直接将数据写入磁盘且数据可见。前一种消耗较少，后一种消耗较大。

大致讲了下SolrCloud的index流程，不是很细致。最后总结以下几点：

leader转发的规则
- 请求来自leader转发：FROMLEADER，那么就只需要写到本地ulog,不需要转发给leader，也不需要转发给其它replicas。如果replica处于非actibe状态中，就会讲update请求接受并写入ulog，但不会写入索引。如果发现重复的更新就会丢弃旧版本的更新。
- 请求不是来自leader，但自己就是leader，那么就需要将请求写到本地，顺便分发给其他的replicas.
- 请求不是来自leader，但自己又不是leader,也就是该更新请求是最原始的更新请求，那么需要将请求写到本地ulog，顺便转发给leader,再由leader分发
- 每commit一次，就会重新生成一个ulog更新日志，当服务器挂掉，内存数据丢失，就可以从ulog中恢复
建索引时候最好使用CloudSolrServer，直接向leader发送update请求避免网络开销
批量add document时候，建议在客户端提前做好document的路由，在SolrCloud内进行document开销较大

2.3 NRT 近实时搜索

SolrCloud支持近实时搜索，所谓的近实时搜索即在较短的时间内使得add的document可见可查，这主要基于softcommit机制(Lucene是没有softcommit的，只有hardcommit)。

当进行SoftCommit时候，Solr会打开新的Searcher从而使得新的document可见，同时Solr还会进行预热缓存以及查询以使得缓存的数据也是可见的。所以必须保证预热缓存以及预热查询的执行时间必须短于commit的频率，否则就会由于打开太多的searcher而造成commit失败。

最后说说在工作中近实时搜索的感受吧，近实时搜索是相对的，对于有些客户1分钟就是近实时了，有些3分钟就是近实时了。而对于Solr来说，softcommit越频繁实时性更高，而softcommit越频繁则Solr的负荷越大（commit越频率越会生成小且多的segment，于是merge出现的更频繁）。目前我们公司的softcommit频率是3分钟，之前设置过1分钟而使得Solr在Index所占资源过多大大影响了查询。所以近实时蛮困扰着我们的，因为客户会不停的要求你更加实时，目前公司采用加入缓存机制来弥补这个实时性。

2.4 Node recovery process

Node recovery process 是SolrCloud容灾能力的重要体现，也是我最近研究的重点之一，目前还没得及深入研究，所以一样先看下概念吧。

SolrCloud支持两种recovery策略，Peer sync 和 Snapshot replication ，分别对应类PeerSync和Snapshot ,他们两者是根据节点下线时丢失的update 请求的数量进行区分的。

Peer sync，如果中断的时间较短，recovering node只是丢失少量update请求，那么它可以从leader的update log中获取。这个临界值是100个update请求，如果大于100，就会从leader进行完整的索引快照恢复。
Snapshot replication，如果节点下线太久以至于不能从leader那进行同步，它就会使用solr的基于http进行索引的快照恢复
当你加入新的replica到shard中，它就会进行一个完整的index Snapshot。

刷新页面返回顶部

Ryan 不积跬步，无以至千里；不积小流，无以成江海。