代码改变世界

管理 Oracle Cluster Registry(OCR)

2017-09-03 17:41  abce  阅读(3330)  评论(0编辑  收藏  举报

oracle的clusterware包含两个重要组件:OCR(包含本地组件OLR)和voting disks
  --OCR管理oracle clusterware和oracle rac数据库的配置信息
  --OLR位于每个节点本地,管理着本地节点的clusterware配置信息
  --voting disks管理成员关系信息。每个voting disk都必须能被集群中的所有节点访问。

在12C中,必须将OCR和voting disks中放在asm中(12c不支持块设备和裸设备;12.2不再支持其他共享文件系统)。

(11g文档是这么写的:必须将ocr和voting disk放在asm中,或者放在经过认证的集群文件系统中)

 

11.2中,oracle oui不支持裸设备、块设备。但是如果是从之前版本升级上来的,可以继续支持块设备、裸设备。oracle肯定是建议使用asm。

为了增加可用性,oracle建议配置多个voting disks文件。如果是使用了asm磁盘组。asm会确保voting disks被配置成了normal冗余或high冗余。如果是使用其他共享文件系统,需要手动指定多份设置。

 

不需要停掉集群的情况下,可以动态添加、替换voting disks。


管理OCR和OLR的工具有ocrconfig、ocrdump、ocrcheck
OLR和OCR类似,只是位于集群中节点的本地,包含特定节点的配置信息。OLR包含clusterware的可管理信息,如不同服务之间的依赖关系,OHAS需要使用这些信息。OLR默认存放路径是grid_home/cdata/host_name.olr。

 

1.迁移OCR到asm

如果是从11.2之前升级到11.2,asm磁盘兼容性必须设置>=11.2;
如果是从12c之前升级到12c,asm磁盘兼容性必须设置>=11.2.0.2。
(1)查看当前运行版本

$ crsctl query crs activeversion
Oracle Clusterware active version on the cluster is [11.2.0.4.0]

(2)在所有节点上启动asm
(3)将ocr增加到asm磁盘组

# ocrconfig -add +new_disk_group

OCR会继承磁盘组的冗余性!

(4)移除之前的存储配置

# ocrconfig -delete old_storage_location

 

2.从asm迁移到其他共享存储类型

(1)查看当前运行版本

$ crsctl query crs activeversion

(2)添加新的文件作为ocr存放的位置

# ocrconfig -add file_location

(3)移除原先的asm配置

# ocrconfig -delete +asm_disk_group

 

3.增加一个OCR Location

# ocrconfig -add +asm_disk_group | file_name

 

4.移除一个OCR Location

# ocrconfig -delete +asm_disk_group | file_name

  

5.替换OCR位置

(1)首先检查一下

$ ocrcheck
$ crsctl check crs

(2)替换OCR位置

# ocrconfig -replace current_ocr_location -replacement new_ocr_location
如果只有一个ocr位置,只有先添加后删除
# ocrconfig -add new_ocr_location
# ocrconfig -delete current_ocr_location

  

6.本地节点修复OCR

如果集群在节点关闭之后发生了培训变更,而该节点是集群的唯一节点,在启动该节点前就要进行OCR修复了。
修复OCR包含增加、删除、替换OCR。例如:

# ocrconfig -repair -add /dev/sde1
# ocrconfig -repair -replace current_ocr_location -repalcement target_ocr_location

 

7.重载OCR

OCR具有防止数据丢失的机制。如果配置了多份镜像的OCR,当clusterware无法访问镜像OCR位置,也不能确定当前可以访问的OCR位置是否包含最新的配置信息的时候,clusterware会阻止对当前可以访问的OCR的修改。
此外,进程也会阻止该节点上的clusterware的启动。clusterware和数据库的alert日志都会受到报警信息。如果这个问题只是发生在某个节点,可以从其它节点启动集群数据库。
如果集群中的任何节点都没法启动,用户可以选择修复OCR或者还原OCR。如果修复或还原都不行,还可以选择重载OCR。重载OCR需要重载所有的OCR,不过这种情况可能会导致部分信息丢失。
修复就用ocrconfig -repair。如果要重载orc,使用命令ocrconfig -overwirte。
在重载OCR之前,应该先进行尝试OCR修复。

 

8.备份OCR
(1)自动备份
clusterware每隔四小时自动备份OCR文件。且会保留最近的三份OCR。由CRSD进行备份。此外,crsd还会做每天和每周一次备份。备份频率和保留期限是不可以调整的。
(2)手动备份
ocrconfig -manualbackup执行备份。OLR只是支持手动备份。
(3)查看备份

$ ocrconfig -showbackup
db2     2017/09/03 14:32:04     /u01/app/11.2.0/grid/cdata/oradb-cluster/backup00.ocr
db2     2017/09/03 10:32:03     /u01/app/11.2.0/grid/cdata/oradb-cluster/backup01.ocr
db2     2017/09/03 06:32:03     /u01/app/11.2.0/grid/cdata/oradb-cluster/backup02.ocr
db2     2017/09/02 02:32:00     /u01/app/11.2.0/grid/cdata/oradb-cluster/day.ocr
db2     2017/08/26 06:32:31     /u01/app/11.2.0/grid/cdata/oradb-cluster/week.ocr

(4)修改备份路径

# ocrconfig -backuploc file_name (指定备份路径)

  

9.还原OCR
如果没有放在asm中:
(1)查看列出节点

# olsnodes

(2)关闭clusterware

# crsctl stop crs 
如果关不了,可以强制关闭
# crsctl stop crs -f

(3)(如果是放在集群文件或者网络文件系统)还原OCR

# ocrconfig -restore file_name

(4)启动clusterware

# crsctl start crs

  

如果是asm,要完成以下步骤:
(1)查看列出节点

# olsnodes

(2)关闭clusterware

# crsctl stop crs 
如果关不了,可以强制关闭
# crsctl stop crs -f

(3)启动clusterware
只在某个节点执行,以exclusive模式启动

# crsctl start crs -excl -nocrs
忽略启动过程中产生的错误信息。

(4)检查crsd进程是否运行

$ crsclt stat res ora.crsd -init
如果运行,要关闭掉crsd进程
# crsctl stop resource ora.crsd -init

(5)把asm磁盘组mount到本地。如果本地无法mount,先把asm中的磁盘组先drop掉。

SQL> drop diskgroup disk_group_name force including contents;

(6)还原OCR

# ocrconfig -restore file_name

(7)再次检查OCR

# ocrcheck

(8)关闭clusterware

# crsctl stop crs -f

(9)剩余节点修复OCR

使用ocrconfig -repair -replace命令逐一执行

(10)启动clusterware

# crsctl start crs

(11)验证

$ cluvfy comp ocr -n all -verbose

Verifying OCR Integrity ...PASSED

Verification of OCR integrity was successful. 

CVU operation performed:      OCR integrity
Date:                         Sep 3, 2017 3:41:01 PM
CVU home:                     /u01/app/12.2.0/grid/
User:                         grid

  

OCR问题诊断

诊断工具有ocrdump、ocrcheck
除了自动备份的OCR文件,也可以将OCR内容export和import,但是需要关闭才能获得一致性结果。

ocrconfig -restore和ocrconfig -manualbackup命令使用的ocr文件格式是兼容的;ocrconfig -export和ocrconfig -import命令使用的ocr文件格式是兼容的。但是这前后两者却是不兼容的。

 

import OCR(linux平台)

(1)列出所有集群节点

$ olsnodes

(2)停止clusterware

# crsctl stop crs 
如果不能正常关闭,可以强制关闭
# crsctl stop crs -f

(3)在其中一个节点,以排他模式启动clusterware

# crsctl start crs -excl 
忽略启动过程中的报错信息
检查crsd进程是否运行,如果运行要关闭它
# crsctl stop resource ora.crsd -init

(4)import OCR

# ocrconfig -import file_name
如果导入的是集群文件系统或网络文件系统,直接到步骤7

(5)验证OCR的完整性

# ocrcheck

(6)关闭clusterware

# crsctl stop crs -f

(7)再次启动 clusterware

# crsctl start crs

(8)验证在集群所有节点上的OCR完整性

$ cluvfy comp ocr -n all -version

  

Oracle Local Registry(OLR)
可以使用ocrcheck、ocrdump、ocrconfig加上参数-local来管理OLR

1.检查OLR的状态
# ocrcheck -local
Status of Oracle Local Registry is as follows :
         Version                  :          4
         Total space (kbytes)     :     409568
         Used space (kbytes)      :       1060
         Available space (kbytes) :     408508
         ID                       : 1941521711
         Device/File Name         : /u01/app/12.2.0/grid/cdata/db12c1.olr
                                    Device/File integrity check succeeded

         Local registry integrity check succeeded

         Logical corruption check succeeded

2.dump出OLR的内容
# ocrdump -local

3.导入导出OLR的内容
# ocrconfig –local –export file_name
# ocrconfig –local –import file_name

4.手动备份OLR
# ocrconfig –local –manualbackup

5.还原OLR
# crsctl stop crs
# ocrconfig -local -restore file_name
# ocrcheck -local
# crsctl start crs
$ cluvfy comp olr