时间不同步导致的nova,cinder服务一会up一会down的来回跳跃

客户反馈无法创建虚拟机(openstack版本为Juno)，登录控制节点，发现nova 和cinder服务有为down的，检查down节点的nova和cinder日志，未发现任何日志信息显示error，且日志显示nova和cinder都在正常更新状态，创建虚拟机的请求，nova-schedule未做任何调度，创建的虚拟机状态直接变为error。

多检查几次nova和cinder服务，发现很多节点的服务状态一直在down和up之间跳动。

1 node-1上面的nova服务全部为down的，其他节点nova服务基本正常

2 10秒左右之后再次执行，发现node-1上面的nova服务全部up了，但是其他节点nova服务又全部down了

3 node-1上面的cinder服务全部为up，其他节点down

4 10秒左右，node-1的cinder服务又全部为down，其他节点cinder服务正常

5 开始怀疑是否是rabbitmq脑裂造成的，检查rabbimq发现正常，也无消息阻塞。

6 检查时间服务，发现各节点时间不同步，时间差比较大（部署完毕后，ntp.conf里面配置的是各节点会向部署节点做时间同步，如果关闭部署节点会修改配置，一段时间后会造成各节点时间差很大）。

7 修改ntp配置，调整向node-1做时间同步，之后发现各服务正常，虚拟机正常创建。

结论：本次事故，是实施完毕后未修改相关配置优化埋下的坑。运维事无大小，生产环境，必须有严格的时间同步，否则极有可能哪天就炸了。

posted @ 2018-02-10 12:37 360linux 阅读(290) 评论(0) 收藏举报

刷新页面返回顶部