时间不同步导致的nova,cinder服务一会up一会down的来回跳跃

               客户反馈无法创建虚拟机(openstack版本为Juno),登录控制节点,发现nova 和cinder服务有为down的,检查down节点的nova和cinder日志,未发现任何日志信息显示error,且日志显示nova和cinder都在正常更新状态,创建虚拟机的请求,nova-schedule未做任何调度,创建的虚拟机状态直接变为error。

       多检查几次nova和cinder服务,发现很多节点的服务状态一直在down和up之间跳动。

      1 node-1上面的nova服务全部为down的,其他节点nova服务基本正常



    2  10秒左右之后再次执行,发现node-1上面的nova服务全部up了,但是其他节点nova服务又全部down了

 


    3 node-1上面的cinder服务全部为up,其他节点down



    4  10秒左右,node-1的cinder服务又全部为down,其他节点cinder服务正常



    5 开始怀疑是否是rabbitmq脑裂造成的,检查rabbimq发现正常,也无消息阻塞。

  


        6 检查时间服务,发现各节点时间不同步,时间差比较大(部署完毕后,ntp.conf里面配置的是各节点会向部署节点做时间同步,如果关闭部署节点会修改配置,一段时间后会造成各节点时间差很大)。


    

        7 修改ntp配置,调整向node-1做时间同步,之后发现各服务正常,虚拟机正常创建。


  


      结论:本次事故,是实施完毕后未修改相关配置优化埋下的坑。运维事无大小,生产环境,必须有严格的时间同步,否则极有可能哪天就炸了。


posted @ 2018-02-10 12:37  360linux  阅读(204)  评论(0编辑  收藏  举报