Oracle RAC服务器重启故障排查

  Oracle Real Application Clusters(Oracle RAC),相对于Oracle单实例来说部署安装和维护都增加了难度,尤其在日常的维护和故障处理过程中,各种日志的查看更加重要,本文主要对Oracle 11g 集群下的目录结构和路径进行介绍和说明。

   以下是集群目录下日志结构,以及对应目录的功能说明,对排查问题尤其重要。

[grid@dbrac1 dbrac1]$ tree -d
.
├── acfslog
├── acfsrepl
├── acfsreplroot
├── acfssec
├── admin
├── agent                       <==========包含CRSD和OHASD守护进程的oraagent、orarootagent、oracssdagent和oracssdmonitor的跟踪及诊断日志文件
│   ├── crsd
│   │   ├── application_root
│   │   ├── oraagent_grid
│   │   ├── oraagent_oracle
│   │   ├── orarootagent_root
│   │   └── scriptagent_grid
│   └── ohasd
│       ├── oraagent_grid
│       ├── oracssdagent_root
│       ├── oracssdmonitor_root
│       └── orarootagent_root
├── client                    <==========包含各种GI客户端(如CLSCFG/GPNP/OCRCONFIG/OLSNODES/OIFCFG)的跟踪和诊断日志。
├── crflogd                   <==========包含由Oracle集群健康监控器(Oracle CHM)提供的集群记录器服务记录的跟踪和诊断日志文件。
├── crfmond                   <==========包含由Oracle集群健康监控器(Oracle CHM)提供的系统监控服务记录的跟踪和诊断日志文件。
├── crsd                      <==========包含Oracle CRSD守护进程的跟踪和诊断日志文件,在发生任何Oracle集群件问题时,从该目录开始着手处理是很不错的起点
├── cssd                      <==========包含集群同步CSS日志,其中包括来自客户端CSS侦听器的操作
├── ctssd                     <==========包含用于排除Oracle集群时间同步服务故障的调试日志文件,这一服务在Oracle GI中引入,用于同步集群节点上的时钟。
├── cvu                       <==========包含由Oracle集群验证实用工具生成的跟踪和调试日志
│   ├── cvulog
│   └── cvutrc
├── diskmon                   <==========用于排除Oracle磁盘监控器守护进程故障的调试日志文件。
├── evmd                      <==========包含事件卷管理器(EVM)和evmlogger守护进程的跟踪及诊断文件。它在调试中使用频率要低于crsd和cssd目录。
├── gipcd                     <==========包含用于排除Oracle网格进程间通信守住程序进程故障的调试和跟踪文件。
├── gnsd                      <==========包含用于排除Oracle网格命名服务相关问题的跟踪和调试日志文件,这一服务是在Oracle GI中引入的。
├── gpnpd                     <==========包含Oracle网格即插即用守护进程的日志和输出文件。
├── mdnsd                     <==========包含用于排除多播域名服务故障的跟踪和诊断日志文件。Oracle网格命名服务使用这一服务来管理名称解析和服务发现。
├── ohasd                     <==========包含Oracle高可用性服务守护进程的日志和输出文件。ohasd日志文件是对于Oracle11g以及更高版本中诊断集群启动问题是真正重要的文件
├── racg                      <==========包括各个Oracle RACG可执行文件中跟踪和调试日志
│   ├── racgeut
│   ├── racgevtf
│   └── racgmain
└── srvm                      <==========包含Oracle服务器管理器服务的日志文件

38 directories
[grid@dbrac1 dbrac1]$ pwd
/u01/app/11.2.0/grid/log/dbrac1

除以上目录外,/u01/app/11.2.0/grid/log/dbrac1/alertdbrac1.log日志也相当重要,出问题第一个需要查看的目录。

  介绍完集群的日志后,下面说一则案例,关于客户集群单节点服务器重启,日志查看顺序。与客户沟通确认,大概下午3点左右重启。

  1、查看系统日志,排查重启时间,确实14:51:38,系统日志开始清理集群进程,并重启了系统,但是谁发起了本次请求,还需要进一步查看集群日志

 

   思考:1、集群仲裁会发生节点重启(引起仲裁的机制较多)

     2、服务器级别故障

                 3、其他未知原因 

     2、检查集群日志的alert,/u01/app/11.2.0/grid/log/dbrac1/alertdbrac1.log,在14:52:04时,接收到agent的关集群命令开始关闭相关进程,在这个日志暂时没有发现异常错误。

  

    3、排查/u01/app/11.2.0/grid/log/dbrac1/agent目录下的相关日志,agent有两个目录crsd、ohasd,先排查crsd下日志,发现类似消息,均为接收到关闭集群的请求,未发现异常的报错信息,如此看来,需要进一步查看ohasd目录下日志。

 

    4、通过对/u01/app/11.2.0/grid/log/dbrac1/agent/ohasd目录下的日志进行排查,在oracssdmonitor_root日志中发现如下异常,大致异常是存储链接中断,不可用,这就是集群重启的首要因素,通知客户检查自己的光纤链路情况。

 

    至此,问题得以解决。

 

posted on 2019-09-17 17:10  空白葛  阅读(2607)  评论(0编辑  收藏  举报

导航