问题一:网卡速度变慢
近期安装 oracle 10g rac for aix5.4 +hacmp5.3 数据库
安装crs时出现问题,在节点1起不来,很郁闷,当时没有找到好的解决办法,看到网上说crsd.log中的报警是和网卡速度设置有关,不要自适应,检查一下是自适应的,用命令修改为固定100m速度,结果反而双机之间通信非常慢,只有几十k,害我耽误了一天时间,看来不能轻易相信啊。
网上这么说的:
神奇的crs-0184: cannot communicate with the crs daemon
真的很神,crs后台进程正常,但crs_stat无法查看其状态。
#ps -ef|grep d.bin
ora10 184520 1 0 08:49:50 - 0:06 /ora10/app/product/crs/bin/evmd.bin
root 204940 1 0 08:49:51 - 0:24 /ora10/app/product/crs/bin/crsd.bin reboot
ora10 213180 286728 0 09:24:26 - 0:44 /ora10/app/product/crs/bin/ocssd.bin
#crs_stat -t
crs-0184: cannot communicate with the crs daemon
#ora_crs_home/log/sid1/crsd/crsd.log结果如下:
2008-04-21 09:01:49.738: [ crsd][1]32daemon version: 10.2.0.1.0 active version: 10.1.0.2.0
2008-04-21 09:01:49.739: [ crsd][1]32active version is less than software version
2008-04-21 09:01:49.741: [ cssclnt][1]clssgsgroupjoin: css has not reached fatal mode.registration is not yet safe. retrying
2008-04-21 09:01:50.743: [ cssclnt][1]clssgsgroupjoin: css has not reached fatal mode.registration is not yet safe. retrying
2008-04-21 09:01:51.751: [ cssclnt][1]clssgsgroupjoin: css has not reached fatal mode.registration is not yet safe. retrying
... ...
故障分析: 据错误现象描述,css无法到达fatal模式,导致crs无法正常连接,原因不明。
解决办法: 很简单,只要更改主机的public网卡的 media speed属性,由auto_negotiation改为100_full_duplex,再启动ha及crs,一切正常。
相关bug: 1.bug 5507883 - crs install fails in crs root.sh due to node
panics 影响平台:10.2.0.3,解决平台:10.2.0.4,无凯发app官方网站的解决方案。
又找了找修改的命令如下:
在主备机的ha停止后,service ip无法对外提供服务,只能通过 hmc 登录系统。
分别主备机上运行如下脚本:
chdev -l en0 -a state='down'
chdev -l en0 -a state='detach'
chdev -l 'ent0 ' -a media_speed='100_full_duplex'
chdev -l en0 -a state='up'
chdev -l en1 -a state='down'
chdev -l en1 -a state='detach'
chdev -l 'ent1 ' -a media_speed='100_full_duplex'
chdev -l en1 -a state='up'
变更实施后,分别使用
netstat -v ent0
netstat -v ent1
检查变更是否成功?
media speed selected: 100 mbps full duplex
media speed running: 100 mbps full duplex
据公司一同事讲,修改这个属性可能导致通信速度不正常,不建议改。
技巧:
远程修改时要用另一个网卡连接执行上面的chdev命令,要不然网卡down后,后面的命令应该执行不了了,我可能就因此使网卡变慢的,不清楚,以后小心,硬件不懂就不要乱动。
问题二 其他机器 ping节点1,有规律的丢包
安装完后,因为是新网段,测试其他机器连接时,发现ping一个节点时通一次,断一次,另一个节点没事,很奇怪,后来硬件工程师检查发现节点1配置了两个网关(还是路由?)用route delete xxx xxx删掉那个不用的就ok了。
阅读(2807) | 评论(0) | 转发(0) |