RAC自动重启问题
现象:RAC环境的一个节点一直自动重启,启来之后不到一分钟就又会重启
分析:因为当系统重启时会执行下面的语句,即自动挂载/ocfs目录
/dev/sda1 /ocfs ocfs2 _netdev,datavolume,nointr 0 0
手工挂载执行下面的语句:
mount -t ocfs2 -o datavolume,nointr /dev/sda1 /ocfs
系统都会自动重启
查看/u01/oracle/product/10g/crs1/log/rac2/cssd/ocssd.log日志发现下面的错:
info: failed to make dir /u01/oracle/product/10g/crs1/css/auth/A1505602, No space left on device
dep: 28
[ CSSD]2009-09-13 23:54:21.991 [163850] >TRACE: Authentication OSD error, op: scls_auth_response_prepare
loc: mkdir
info: failed to make dir /u01/oracle/product/10g/crs1/css/auth/A2520320, No space left on device
dep: 28
[ CSSD]2009-09-13 23:54:22.209 [163850] >TRACE: Authentication OSD error, op: scls_auth_response_prepare
loc: mkdir
info: failed to make dir /u01/oracle/product/10g/crs1/css/auth/A5489705, No space left on device[ CSSD]2009-09-15 17:07:30.984 >USER: Oracle Database 10g CSS Release 10.2.0.1.0 Production Copyright 1996, 2004 Oracle. All rights rese
可以看到是可能是系统没有空间了
结果用df -h查看磁盘使用情况,果然是空间满了,进一步查是下面这个文件把空间占满了
[root@rac1 bdump]# pwd
/u01/oracle/admin/orcl/bdump
[root@rac1 bdump]# ll -h orcl1_j003_27112.trc
-rw-rw---- 1 oracle dba 236G Sep 13 23:50 orcl1_j003_27112.trc
跟踪文件的内容如下,
[root@rac1 bdump]# tail -200 orcl1_j003_27112.trc
0636E7E90 00000000 00000000 00000000 00000000 [................]
Repeat 173 times
0636E8970 00000000 [....]
Chunk 0636e7988 sz=1929379840 ERROR, BAD MAGIC NUMBER (636E7973000000)
Dump of memory from 0x00000000636E6988 to 0x00000000636E8988
0636E6980 00000000 00000000 [........]
0636E6990 00000000 00000000 00000000 00000000 [................]
Repeat 253 times
0636E7970 83000000 00636E79 83000000 00636E79 [....ync.....ync.]
0636E7980 73000000 00636E79 73000000 00636E79 [...sync....sync.]
0636E7990 00000000 00000000 00000000 00000000 [................]
0636E79A0 00000000 00000000 00000000 FF000000 [................]
0636E79B0 007FFFFF 00000000 00000000 00000000 [................]
0636E79C0 00000000 00000000 00000000 00000000 [................]
Repeat 1 times
0636E79E0 00000000 00000000 EB000000 00636E79 [............ync.]
0636E79F0 EB000000 00636E79 00000000 00000000 [....ync.........]
0636E7A00 00000000 00000000 00000000 00000000 [................]
Repeat 48 times
0636E7D10 00000000 00000000 1B000000 00636E7D [............}nc.]
0636E7D20 1B000000 00636E7D 00000000 00000000 [....}nc.........]
0636E7D30 33000000 00636E7D 33000000 00636E7D [...3}nc....3}nc.]
0636E7D40 00000000 00000000 4B000000 00636E7D [...........K}nc.]
0636E7D50 4B000000 00636E7D 00000000 00000000 [...K}nc.........]
0636E7D60 63000000 00636E7D 63000000 00636E7D [...c}nc....c}nc.]
但具体为什么这个文件会这么大,为什么会报这样的错目前还不太清楚
解决办法:
1、开机后尽快root登陆,执行/etc/init.d/init.crs disable
由于本操作不影响本次开机,所以服务器仍然会reboot
reboot完成后,服务器就不再自动reboot了
注意:做完这步才能对服务器错误进行上面的分析,不然服务器都无法登录使用,或者是先rac1网线拔了,启来后再插上,保证/ocfs不会自动挂载而重启。
2、删掉这个文件,释放空间
[root@rac1 bdump]rm -f orcl1_j003_27112.trc
3、执行下面的命令
/etc/init.d/init.crs enable (下次会起作用)
/etc/init.d/init.crs start
要启单个服务用
crs_start ora.orcl.CRM.cs
启动所有服务用
crs_start -all
注:
Clusterware主要进程
(1)crsd: 负责管理集群的高可用操作。管理的crs资源包括数据库、实例、监听、虚拟IP,ons,gds或者其他,操作包括启动、关闭、监控及故障切换。改进程由root用户管理和启动。crsd如果有故障会导致系统重启。
(2)cssd,管理各节点的关系,用于节点间通信,节点在加入或离开集群时通知集群。该进程由oracle用户运行管理。发生故障时cssd也会自动重启系统。
(3)oprocd – 集群进程管理 —Process monitor for the cluster. 用于保护共享数据IO fencing。
仅在没有使用vendor的集群软件状态下运行
(4)evmd :事件检测进程,由oracle用户运

浙公网安备 33010602011771号