RAC自动重启问题

现象：RAC环境的一个节点一直自动重启，启来之后不到一分钟就又会重启
分析：因为当系统重启时会执行下面的语句，即自动挂载/ocfs目录
/dev/sda1 /ocfs ocfs2 _netdev,datavolume,nointr 0 0
手工挂载执行下面的语句：
mount -t ocfs2 -o datavolume,nointr /dev/sda1 /ocfs
系统都会自动重启

查看/u01/oracle/product/10g/crs1/log/rac2/cssd/ocssd.log日志发现下面的错：
info: failed to make dir /u01/oracle/product/10g/crs1/css/auth/A1505602, No space left on device
dep: 28
[ CSSD]2009-09-13 23:54:21.991 [163850] >TRACE: Authentication OSD error, op: scls_auth_response_prepare
loc: mkdir
info: failed to make dir /u01/oracle/product/10g/crs1/css/auth/A2520320, No space left on device
dep: 28
[ CSSD]2009-09-13 23:54:22.209 [163850] >TRACE: Authentication OSD error, op: scls_auth_response_prepare
loc: mkdir
info: failed to make dir /u01/oracle/product/10g/crs1/css/auth/A5489705, No space left on device[ CSSD]2009-09-15 17:07:30.984 >USER: Oracle Database 10g CSS Release 10.2.0.1.0 Production Copyright 1996, 2004 Oracle. All rights rese

可以看到是可能是系统没有空间了
结果用df -h查看磁盘使用情况，果然是空间满了，进一步查是下面这个文件把空间占满了
[root@rac1 bdump]# pwd
/u01/oracle/admin/orcl/bdump
[root@rac1 bdump]# ll -h orcl1_j003_27112.trc
-rw-rw---- 1 oracle dba 236G Sep 13 23:50 orcl1_j003_27112.trc
跟踪文件的内容如下，
[root@rac1 bdump]# tail -200 orcl1_j003_27112.trc
0636E7E90 00000000 00000000 00000000 00000000 [................]
Repeat 173 times
0636E8970 00000000 [....]
Chunk 0636e7988 sz=1929379840 ERROR, BAD MAGIC NUMBER (636E7973000000)
Dump of memory from 0x00000000636E6988 to 0x00000000636E8988
0636E6980 00000000 00000000 [........]
0636E6990 00000000 00000000 00000000 00000000 [................]
Repeat 253 times
0636E7970 83000000 00636E79 83000000 00636E79 [....ync.....ync.]
0636E7980 73000000 00636E79 73000000 00636E79 [...sync....sync.]
0636E7990 00000000 00000000 00000000 00000000 [................]
0636E79A0 00000000 00000000 00000000 FF000000 [................]
0636E79B0 007FFFFF 00000000 00000000 00000000 [................]
0636E79C0 00000000 00000000 00000000 00000000 [................]
Repeat 1 times
0636E79E0 00000000 00000000 EB000000 00636E79 [............ync.]
0636E79F0 EB000000 00636E79 00000000 00000000 [....ync.........]
0636E7A00 00000000 00000000 00000000 00000000 [................]
Repeat 48 times
0636E7D10 00000000 00000000 1B000000 00636E7D [............}nc.]
0636E7D20 1B000000 00636E7D 00000000 00000000 [....}nc.........]
0636E7D30 33000000 00636E7D 33000000 00636E7D [...3}nc....3}nc.]
0636E7D40 00000000 00000000 4B000000 00636E7D [...........K}nc.]
0636E7D50 4B000000 00636E7D 00000000 00000000 [...K}nc.........]
0636E7D60 63000000 00636E7D 63000000 00636E7D [...c}nc....c}nc.]

但具体为什么这个文件会这么大，为什么会报这样的错目前还不太清楚

解决办法：
1、开机后尽快root登陆，执行/etc/init.d/init.crs disable
由于本操作不影响本次开机，所以服务器仍然会reboot
reboot完成后，服务器就不再自动reboot了
注意：做完这步才能对服务器错误进行上面的分析，不然服务器都无法登录使用，或者是先rac1网线拔了，启来后再插上，保证/ocfs不会自动挂载而重启。

2、删掉这个文件，释放空间
[root@rac1 bdump]rm -f orcl1_j003_27112.trc

3、执行下面的命令
/etc/init.d/init.crs enable (下次会起作用)
/etc/init.d/init.crs start
要启单个服务用
crs_start ora.orcl.CRM.cs
启动所有服务用
crs_start -all

注：

Clusterware主要进程

　　(1)crsd：负责管理集群的高可用操作。管理的crs资源包括数据库、实例、监听、虚拟IP，ons，gds或者其他，操作包括启动、关闭、监控及故障切换。改进程由root用户管理和启动。crsd如果有故障会导致系统重启。

　　(2)cssd，管理各节点的关系，用于节点间通信，节点在加入或离开集群时通知集群。该进程由oracle用户运行管理。发生故障时cssd也会自动重启系统。

　　(3)oprocd – 集群进程管理 —Process monitor for the cluster. 用于保护共享数据IO fencing。

　　仅在没有使用vendor的集群软件状态下运行

　　(4)evmd ：事件检测进程，由oracle用户运

posted on 2013-06-06 18:06 邹.卡索阅读(553) 评论(0) 收藏举报

刷新页面返回顶部

卡索

公告

RAC自动重启问题