昨天下午,一现场要添加RAC节点,db1节点正常运行,添加db2节点;在db2上做了安装的一些配置后,需要reboot,
于是直接就reboot;糟糕,这条命令错误地执行在db1上了,导致现场数据库直接停了。当时以为一会儿db1就能重启了,但是,
等了30分钟,db1也ping不通;联系现场协助重启服务器,现场告知:服务器一直重启中,都没机会登录系统。晕死!
后来尝试拔掉网线等操作,在某一次中,竟然有短暂的10分钟可以登录了,直接把crs的自启动 disabled,防止由于这个原因导致
服务器一直重启。但一会后,还是不断重启中。
曾经尝试按这篇文章(http://hi.baidu.com/xulianboo/item/943d5c114381524a3a176e9a)进行了排查,也不行。
最后没有办法,协商的结果是,把db1重新安装系统,然后重新安装RAC,用rman备份恢复。现场打算在db1安装操作系统时,
发现由于硬件有问题,还是反复重启,安装都没办法进行。方案改为,先在db2上安装单机数据库,用备份做RAC到单机的恢复。
为此,今天折腾了一天,虽然最终搞好了,但心太累!
虽然这个问题最终没造成重大后果,但该问题对我今后DBA工作具有深刻意义:要深刻思考一下,以后如何防止类似事件。
浙公网安备 33010602011771号