节点重启的故障分析-凯发app官方网站

凯发app官方网站-凯发k8官网下载客户端中心 | | 凯发app官方网站-凯发k8官网下载客户端中心
  • 博客访问: 3503166
  • 博文数量: 718
  • 博客积分: 1860
  • 博客等级: 上尉
  • 技术积分: 7790
  • 用 户 组: 普通用户
  • 注册时间: 2008-04-07 08:51
个人简介

偶尔有空上来看看

文章分类

全部博文(718)

文章存档

2024年(4)

2023年(74)

2022年(134)

2021年(238)

2020年(115)

2019年(11)

2018年(9)

2017年(9)

2016年(17)

2015年(7)

2014年(4)

2013年(1)

2012年(11)

2011年(27)

2010年(35)

2009年(11)

2008年(11)

最近访客
相关博文
  • ·
  • ·
  • ·
  • ·
  • ·
  • ·
  • ·
  • ·
  • ·
  • ·

分类: oracle

2012-03-19 11:58:44

遇到10g rac单节点重启的故障按照以下步骤检查:
首先可以结合操作系统的dump文件确定是哪个进程导致的重启。或者是否是其他问题。

如果时cssd.bin导致重启,最常见的重启问题:

一:察看crs下ocssd.log集群日志文件。搜索关键字:warning察看有没有问题存在。

如果出现连续30个如下错误报警导致重启:

[ cssd]2008-10-30 15:23:36.483 [3086] >warning: clssnmpollingthread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds

检查网络心跳链路:主机私有网卡,交换机,线路,hosts文件是否正常。

如出现短暂的如下错误,例如只出现一两个,一个节点就被驱逐导致重启:

[ cssd]2008-10-30 15:23:36.483 [3086] >warning: clssnmpollingthread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds

请检查磁盘心跳votedisk和ocr是否正常,确定是否使用文件系统(确定文件系统工作正常)。

检查votedisk:crsctl query css votedisk

检查ocr:ocrcheck

如果出现以下错误:warning: clssnmpollingthread: node p595-2 (2) at 50% heartbeat fatal, eviction in 13.644 seconds

问题出在磁盘心跳请依照上面检查。


二:

2.检查看看系统是否处在高负载状态,cpu,内存等。

3.察看是否为误操作,删除crs_home。

4.css的设置问题,hosts文件等

5.杀死init.cssd fatal进程和 ocssd进程

6.oracle bug问题

- an oracle bug. known bugs that can cause css reboots:


note 264699.1 - css fails to flush writes after installing 10.1.0.2 crs on linux with ocfs


bug 3942568 - a deadlock can occur between 2 threads of the css daemon process.

fixed in 10.1.0.4 and above.

solaris only: see these bugids that fixed the problem (in solaris 9; the fixes were backported to solaris 8 update 6):

三:检查操作系统设置参数:

检查操作系统中/etc/init.d/init.cssd文件中参数:

oprocd_default_margin最少设置为为500。(避免节点重启)

-t : 超时时间,缺省1000,单位毫秒 (oprocd_default_timeout=1000)
-m : 重启前可接受的延迟,单位毫秒,缺省500 (oprocd_default_margin=500)

检查oracle提供的cluster来说,是否设置为最少css misscount是600秒。(crsctl命令修改)

 
转自
 
 
rac节点宕机解决技巧步骤二:问题的解决技巧
 
      通过对上面两个日志的分析,我们基本可以确定的是,由于ipc包发送失败导致crs认为心跳失败,为了避免“脑裂”现象,节点1主动驱逐了节点2;此外的几次down情况类似。
 
      我们知道,在一个共享存储的集群中,当集群中hearbeat丢失时,如果各节点还是同时对共享存储去进行操作,那么在这种情况下所引发的情况是灾难的。oracle rac采用投票算法来解决这个问题,思想是这样的:
 
      首先,每个节点都有一票,考虑有a,b,c三个节点的集群情形,当a节点由于各种原因不能与b,c节点通信时,那么这集群分成了两个domain,a节点成为一个domain,拥有一票;b,c节点成为一个domain拥有两票,那么这种情况b,c节点拥有对集群的控制权,从而把a节点踢出集群,对要是通io fencing来实现。如果是两节点集群,则引入了仲裁磁盘,当两个节点不能通信时,请求最先到达仲裁磁盘的节点拥用对集群的控制权。
 
      在网络正常的情况下,ipc包发送超时,首先想到是不是遇到了bug,到metalink上查了查,发现一个bug与我们的现象吻合。bug编号为:6782276,在10.2.0.4中得到了修复。接下来就是按部就班的打补丁了。
转自
 
 

oracle rac节点驱逐原因分三种,《参照oracle文档(doc id 559365.1)

1node is not pinging via the network heartbeat

2node is not pinging the voting disk

3node is hung/busy and is unable to perform either of the earlier tasks

 

故障解决建议

    因为发生故障时间很短,从日志中没有查到相关的进程信息,建议安装osw来监控服务器信息。如果下次发现同样的问题,可以从osw中抓取到具体进程信息。再来调试相关的出错进程。

 

转自

阅读(2133) | 评论(0) | 转发(1) |
给主人留下些什么吧!~~
")); function link(t){ var href= $(t).attr('href'); href ="?url=" encodeuricomponent(location.href); $(t).attr('href',href); //setcookie("returnouturl", location.href, 60, "/"); }
网站地图