代码改变世界

随笔分类 -  A故障处理专题

案例:ADG环境遇到redo日志member路径有误以及RMAN-6571错误

2020-09-11 15:26 by AlfredZhao, 1208 阅读, 收藏, 编辑
摘要: 最近先后帮客户做了两套从虚拟化环境到物理机的数据库迁移,都是Linux系统,Oracle 11.2.0.4的RAC,最终选定ADG方案实现迁移,简单高效。 在之前的文章Oracle 11g ADG 部署(duplicate)快速参考中,已经详细介绍了搭建步骤。但本次环境准备时还是遇到些小问题,本文记 阅读全文

小知识:解决EXP-00003的报错

2020-07-27 17:48 by AlfredZhao, 1874 阅读, 收藏, 编辑
摘要: 客户有个需求:某用户程序(含exp导出任务)报错EXP-00003,这个错误并不会影响整个导出任务的结束,但由于是晚上的定时任务,该错误会触发夜间告警。客户想通过数据库层面来规避掉此错误。 事实上,这个错误是比较普遍的,我们知道Oracle 11g有一个延迟段创建的特性,这个特性在最佳实践一般是建议 阅读全文

案例:归档自动清理脚本失效及连带影响

2020-07-16 08:58 by AlfredZhao, 963 阅读, 收藏, 编辑
摘要: 前些天给同事准备一套模拟环境用于测试一个OGG问题: 环境架构:Oracle 11.2.0.4 RAC + 单实例11.2.0.4 ADG(同时作为OGG源端,OGG版本19.1.0.0.4) + 单实例19.3多租户(其中1个PDB作为OGG目标端,OGG版本19.1.0.0.4) 现象概述:发现 阅读全文

记录一则因主机名讹误导致的RAC启动异常

2020-07-15 23:11 by AlfredZhao, 568 阅读, 收藏, 编辑
摘要: 1.故障现象 2.解决方案 环境:RHEL 7 + Oracle 19.5 RAC 1.故障现象 最近遇到客户的一套19c测试环境,在一次主机重启后发现集群无法启动,使用crsctl stat res -t -init查看集群启动阶段时发现直接报错如下信息: [grid@xxdb01-vip ~]$ 阅读全文

案例:DG备库报错ORA-600[2619]致使mrp进程异常终止

2020-06-27 17:36 by AlfredZhao, 494 阅读, 收藏, 编辑
摘要: 很多刚入行的DBA往往一看有ORA-600这类错误就不知所措,直接就想寻求中高级DBA支持,甚至在网上还看到有人说,判断一个Oracle DBA是否达到中级以上,就是看其是否可以独立思考处理ORA-600这类问题,而实际上ORA-600这个错误集合中的确有很多跟bug相关,有些甚至是MOS也搜不到的 阅读全文

记录一则数据库死锁故障的分析过程

2020-05-07 13:19 by AlfredZhao, 1215 阅读, 收藏, 编辑
摘要: "1.背景概述" "2.故障分析" "3.根本解决方案及建议" 1.背景概述 客户的监控告警频繁提示系统xx数据库死锁增长个数高于当前阈值_当前值1.00。 下面是详细的故障分析诊断过程,以及详细的解决方案描述。 2.故障分析 2.1 故障现象 登录到系统,从数据库到alert日志可以发现的确存在很 阅读全文

使用SQL计算宝宝每次吃奶的时间间隔 - Part3:保障数据安全

2019-12-26 22:47 by AlfredZhao, 816 阅读, 收藏, 编辑
摘要: 目前程序从功能上其实已经完全满足客户(当然我这里的客户都是指媳妇儿^_^)需求,具体可参考: "使用SQL计算宝宝每次吃奶的时间间隔 Part1:分析函数的使用" "使用SQL计算宝宝每次吃奶的时间间隔 Part2:提升程序易用性" 那么本篇 "使用SQL计算宝宝每次吃奶的时间间隔 Part3:保障 阅读全文

案例:Oracle 10g RAC 集群无法启动

2019-12-12 15:05 by AlfredZhao, 920 阅读, 收藏, 编辑
摘要: 环境: RHEL 5.7 + Oracle 10.2.0.5 RAC 很多年前的一套测试环境,今天发现集群无法启动。手工尝试启动crs,集群日志也无任何输出。进一步检查集群配置: 确认Votedisk 存在问题,这个jy2不知道是怎么来的,反正是没有有效的votedisk,根据实际环境,我这里尝试加 阅读全文

案例:是谁用了我的临时表空间?

2019-11-18 23:54 by AlfredZhao, 784 阅读, 收藏, 编辑
摘要: 环境:RHEL 6.5 + Oracle 11.2.0.4 RAC + ADG 起初发现自己的ADG测试环境不再同步,进一步分析是DATA磁盘组空间耗尽导致的,可是最近在磁盘组上的数据库都没有做过什么测试,且测试磁盘组一直都留有2G+剩余空间,那是什么导致突然没空间了呢? 经过查询dba_data_ 阅读全文

ASH裸数据dba_hist_active_sess_history的分析

2019-09-04 01:01 by AlfredZhao, 1147 阅读, 收藏, 编辑
摘要: 之前在一则案例《 "记录一则enq: TX row lock contention的分析过程" 》使用过这种方法。 因为最近故障处理经常会用到这类查询进行ASH裸数据的分析,下面以m_ash0902为命名,时间为:2019 09 02 16:00:00 2019 09 02 18:00:00,方便根 阅读全文

Oracle创建新undo表空间最佳实践(包含段检查)

2019-04-18 05:50 by AlfredZhao, 923 阅读, 收藏, 编辑
摘要: 在处理一则ORA 600 [4194]案例时,参考MOS文档:Step by step to resolve ORA 600 4194 4193 4197 on database crash (文档 ID 1428786.1) "1.对于ORA 600[4194]的解释" "2.创建新undo表空间 阅读全文

定位amdu无法使用的根因并解决

2018-12-10 22:47 by AlfredZhao, 451 阅读, 收藏, 编辑
摘要: 环境: OEL 5.7 + Oracle 10g + amdu_X86 64 现象: 我的两套实验环境,一套单实例,一套RAC,操作系统都是OEL 5.7,数据库都是Oracle 10g,上传同样的amdu介质。一个正常,一个报错: 直接去网上或是MOS搜索,都没有相关匹配的文章。 从报错本身来看就 阅读全文

记录一则expdp任务异常处理案例

2018-11-01 23:20 by AlfredZhao, 984 阅读, 收藏, 编辑
摘要: 环境: AIX 6.1 + Oracle 10.2.0.4 现象: 在XTTS迁移测试阶段,遇到执行几个expdp的导出任务,迟迟没有返回任何信息,对应日志无任何输出,查看任务状态: 可以看到所有的expdp导出任务的STATE都停留在DEFINING状态。 "1.牛刀小试清异常" "2.追本溯源查 阅读全文

记录一则ORA-600 [13011]错误

2018-07-13 10:05 by AlfredZhao, 707 阅读, 收藏, 编辑
摘要: 环境: Solaris 10 + Oracle 11.2.0.1 现象: alert告警日志定期出现ORA 600 [13011]错误 "1.故障现象" "2.初步分析" "3.匹配MOS" "4.定位解决" 1.故障现象 数据库alert 日志: 2.初步分析 从/u01/app/oracle/d 阅读全文

HP-UX平台Oracle启动实例遭遇:ORA-27154,ORA-27300,ORA-27301,ORA-27302

2018-06-02 09:01 by AlfredZhao, 1294 阅读, 收藏, 编辑
摘要: 环境: HP UX 11.31 + Oracle 11.2.0.4 现象: 在hpux安装Oracle,按业务需求配置参数后,无法启动实例。 报错如下: "1.初步定位" "2.验证猜想" "3.深入分析" 1.初步定位 快速判定这是实例就无法启动,也就是nomount这一阶段就无法成功,首先想到的 阅读全文

Oracle 重建控制文件一例

2018-05-23 09:57 by AlfredZhao, 5824 阅读, 收藏, 编辑
摘要: 环境: OEL 5.7 + Oracle 10.2.0.5 背景: 在Oracle的运维过程中,时常会遇到一些场景是需要重建控制文件才可以解决的。本文的场景可以通过复制控制文件到新路径,运行一段时间后,再用老的控制文件启动数据库重现。 "1.当前故障现象" "2.分析故障原因" "3.重建控制文件" 阅读全文

Oracle RAC环境下定位并杀掉最终阻塞的会话-续

2018-04-21 08:47 by AlfredZhao, 1221 阅读, 收藏, 编辑
摘要: 之前在《 "Oracle RAC环境下定位并杀掉最终阻塞的会话" 》中,最终使用一个SQL查询出RAC实例之间的所有阻塞关系。但是实际在某些极端的生产环境,是不允许执行复杂的SQL语句,即使允许执行可能现场也不方便复制SQL,手敲的话效率低下,那么本文就介绍另一种简单的方法来快速定位最终阻塞会话,也 阅读全文

Oracle RAC环境下定位并杀掉最终阻塞的会话

2018-04-04 16:29 by AlfredZhao, 2770 阅读, 收藏, 编辑
摘要: 实验环境: Oracle RAC 11.2.0.4 (2节点) "1.模拟故障:会话被级联阻塞" "2.常规方法:梳理找出最终阻塞会话" "3.改进方法:立即找出最终阻塞会话" 之前其实也写过一篇相关文章: "如何定位Oracle数据库被锁阻塞会话的根源" 但上文给出的例子过于简单,实际对于生产中复 阅读全文

记录一则ASM实例阻塞,rbal进程异常的案例

2018-03-27 10:56 by AlfredZhao, 1339 阅读, 收藏, 编辑
摘要: - [1.故障现象描述](#1) - [2.确认故障现象](#2) - [3.排查ASM层面](#3) - [4.解决问题](#4) 1.故障现象描述 **环境:**AIX 7.1 + Standalone Oracle 11.2.0.4 **现象:**客户反映某11g版本的ADG备库无法正常进行任 阅读全文

记录一则enq: TX - row lock contention的分析过程

2018-03-23 04:18 by AlfredZhao, 2676 阅读, 收藏, 编辑
摘要: 故障描述: 与客户沟通,初步确认故障范围大概是在上午的8:30 10:30之间,反应故障现象是Tomcat的连接数满导致应用无法连接,数据库alert中无明显报错,需要协助排查原因。 "1.导入包含故障时刻的数据" "2.创建m_ash表,明确故障时刻" "3.确定异常时刻的top n event" 阅读全文