Unable to connect to a member of the replica set matching the read preference Primary

今天尝试使用MongoDB Replica Set提供的自动故障恢复功能一直无法成功,总是遇到上面这个错误。好一顿整终于找到的原因,由于这里还比较有迷惑性,特此记录一下供其他人参考。

其实Google一下这个错误,在前几条结果中就有答案,但是该死的GFW屏蔽了Google Group,导致我跳过了那条结果而一直没有找到正确答案,我可以骂脏话吗?

进入正题,我们知道使用Replica Set是要在连接字符串中加入所有结点的地址(建议这么做,但并不是强制。关于连接字符串参考这里)。以我为机器为例,我的Windows在虚拟机192.168.122.100上,MongoDB运行在物理机192.168.122.1中的三个实例上,分别是:

192.168.122.1:27017
192.168.122.1:27011
192.168.122.1:27012

因此我的连接字符串大概会是这个样子(ReplicaSet为rs0):

mongodb://192.168.122.1,192.168.122.1:27011,192.168.122.1:27012/Cart?replicaSet=rs0

然后我到MongoDB的实例上建立了Replica Set:

yaoxing@YX-ARCH ~ $ mongo localhost
MongoDB shell version: 2.4.8
connecting to: test

>rs.initiate()

 

然后尝试把其他两个实例添加到Replica Set中:

rs.add("localhost:27011");
rs.add("localhost:27012");

发生了错误:

{
    "errmsg" : "exception: can't use localhost in repl set member names except when using it for all members",
    "code" : 13393,
    "ok" : 0
}

最容易想到的就是把localhost更换成机器名了,于是

rs.add("YX-ARCH:27011")
rs.add("YX-ARCH:27012")

成功,一切看起来都很美好,但其实问题就已经在这里发生了。如果尝试关闭Primary,就会有另外一个实例从Secondary变为Primary,这点没有问题。但客户端始终会抛出本文开头那个异常,无法自动切换到新的Primary上。原因如下:

如果仔细看MongoDB的文档,你会发现其实在连接字符串中写进所有的结点并不是必要的,但如果只写一个结点的话,必须要加上?replicaSet=[set name]参数(原因参考文档)。为什么可以只写一个结点?因为当Driver连接上一个结点之后会从该结点获取其他结点的信息,这样做是为了以后动态添加新结点的时候Driver可以从结点信息中自动识别,而不必每次都修改连接字符串。当然如果只写一个结点的话,坏处就是当这个结点挂了的时候Driver就不知道去哪找其他结点的信息了。

由此我们可以发现,有几台服务器并不是从你的连接字符串中发现的,而是当Driver连接上某一台服务器后,从中获取的。所以从以上的例子中获取了什么东西?

rs0:PRIMARY> rs.conf()
{
    "_id" : "rs0",
    "version" : 7,
    "members" : [
        {
            "_id" : 0,
            "host" : "YX-ARCH:27017",
            "priority" : 20
        },
        {
            "_id" : 1,
            "host" : "YX-ARCH:27011",
            "priority" : 30
        },
        {
            "_id" : 2,
            "host" : "YX-ARCH:27012",
            "priority" : 20
        }
    ]
}

一共三个HOST

YX-ARCH
YX-ARCH:27011
YX-ARCH:27012

明眼人应该看出来了,YX-ARCH这个东西在我的虚拟机中不存在,因此C# Driver发现连接字符串最终无法连接到成为新Primary的YX-ARCH:27011,而唯一可以连接的192.168.122.1是Secondary身份,我又没有指定readPreference,因此不可读。悲剧就这么发生了。

当然知道了原因,解决方案也很简单:

在replica set中和连接字符串中使用相同的HOST地址就可以完美解决问题

希望对遇到同样问题的人有所帮助。

posted on 2014-01-07 14:12  yaoxing  阅读(6896)  评论(1编辑  收藏  举报