记录一次服务访问用时太长排查历程
页面的请求每隔10秒左右,就需要等待3.07秒才能返回结果。
最开始以为是网关到具体服务间的网络问题,检查发现没有问题;
后怀疑是服务间注册发现问题,但是想了很久无从下手。
(此时大脑已经陷入死胡同,就先下班了...)
然后第二天早晨继续,收拾心情从头开始。
先通过IP直接访问接口服务,发现没有问题,说明业务服务连接无问题;
然后通过IP直接访问网关服务,发现也没问题,到这里我是很高兴的,说明不是服务间的问题了,把我的猜测排除,并重新设定问题点——域名解析的问题;
那接下来就是排查域名到网关这了,我打开域名管理,查看域名绑定的IP,发现两台前端机器,域名只解析到一台,然后我就把另一台IP也配置上去,刷新了几次前端页面,发现有时候页面不出来,应该是第二台页面没部署,就让前端把第二台集群页面部署上,然后我就看他操作,这时重点来了,我看到他的nginx配置(直接复制第一台的nginx配置),发现网关路由转发的upstream配置中有一台并不是我们现在用的机器IP,好嘛,找到问题了,让他修改两台机器nginx的upstream配置的IP,重启nginx,一切都正常了。。。完结撒花。。。
这也就解释了为啥日志只有一台服务器上有的问题了(测试环境,前端服务高可用),没想到无意中解决了这个疑惑,本来准备解决这个问题后在看看的。

浙公网安备 33010602011771号