偶尔有空上来看看
分类: oracle
2012-03-19 11:58:44
如果时cssd.bin导致重启,最常见的重启问题:
一:察看crs下ocssd.log集群日志文件。搜索关键字:warning察看有没有问题存在。
如果出现连续30个如下错误报警导致重启:
[ cssd]2008-10-30 15:23:36.483 [3086] >warning: clssnmpollingthread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds
检查网络心跳链路:主机私有网卡,交换机,线路,hosts文件是否正常。
如出现短暂的如下错误,例如只出现一两个,一个节点就被驱逐导致重启:
[ cssd]2008-10-30 15:23:36.483 [3086] >warning: clssnmpollingthread: node p595-2 (2) at 50% heartbeat fatal, eviction in 14.701 seconds
请检查磁盘心跳votedisk和ocr是否正常,确定是否使用文件系统(确定文件系统工作正常)。
检查votedisk:crsctl query css votedisk
检查ocr:ocrcheck
如果出现以下错误:warning: clssnmpollingthread: node p595-2 (2) at 50% heartbeat fatal, eviction in 13.644 seconds
问题出在磁盘心跳请依照上面检查。
二:
2.检查看看系统是否处在高负载状态,cpu,内存等。
3.察看是否为误操作,删除crs_home。
4.css的设置问题,hosts文件等
5.杀死init.cssd fatal进程和 ocssd进程
6.oracle bug问题
- an oracle bug. known bugs that can cause css reboots:
note 264699.1 - css fails to flush writes after installing 10.1.0.2 crs on linux with ocfs
bug 3942568 - a deadlock can occur between 2 threads of the css daemon process.
fixed in 10.1.0.4 and above.
solaris only: see these bugids that fixed the problem (in solaris 9; the fixes were backported to solaris 8 update 6):
三:检查操作系统设置参数:
检查操作系统中/etc/init.d/init.cssd文件中参数:
oprocd_default_margin最少设置为为500。(避免节点重启)
-t : 超时时间,缺省1000,单位毫秒 (oprocd_default_timeout=1000)
-m : 重启前可接受的延迟,单位毫秒,缺省500 (oprocd_default_margin=500)
检查oracle提供的cluster来说,是否设置为最少css misscount是600秒。(crsctl命令修改)
oracle 的rac节点驱逐原因分三种,《参照oracle文档(doc id 559365.1)》:
1、node is not pinging via the network heartbeat
2、node is not pinging the voting disk
3、node is hung/busy and is unable to perform either of the earlier tasks
故障解决建议
因为发生故障时间很短,从日志中没有查到相关的进程信息,建议安装osw来监控服务器信息。如果下次发现同样的问题,可以从osw中抓取到具体进程信息。再来调试相关的出错进程。
转自