*技术范围:
排查
技术关键词:
Cisco Tools
*案例描述:
用户的Cisco 6509上一块WS-6724-SFP模块(Slot 3#)在设备重启后无法识别了,该模块上的所有链接全部断开,而在重启之前据说都是很正常的。
解决思路:
在了解了大致情况后,开始按以下步骤进行排查:
首先,看了一下模块卡面板,发现Status的LED灯没有亮,所有的端口LED灯也不亮。第一直觉就是模块没有上电。
接着,通过Console口进入特权模式,用show ip interface brief命令没有查看到Slot 3#的端口信息,再用show module all命令,发现模块3的Status为PwrDown。这证实了我之前的猜测是正确的。
于是,开始围绕模块power进行排查。最先想到的是可能人为将此模块power down了,随即用命令power enable module 3来手动给此模块上电,然后再用show module 3命令查看,结果还是PwrDown的状态。
没有办法,只好重新启动一次,观察一下启动时模块自检过程中是否有错误信息产生。在到模块3上电自检时,显示了如下的Failure信息:
00:01:16: %OIR-SP-6-PWRFAILURE: Module 3 is being disabled due to power convertor failure
00:01:16: %C6KPWR-SP-4-DISABLED: power to module in slot 3 set off (FRU-power failed)
到这里,基本上已经确定了模块的power convertor部件出现了故障,但具体故障的原因是什么,又如何解决还是一无所知。
这时就要用到Cisco提供的Tools来进行故障定位了。Cisco在其官方网站上提供了很多Tools,以方便用户配置和排查Cisco各种设备,常见的有CAN(Cisco Network Assist),Cisco ConfigMaker,SDM等,这里我要提的是对排错非常有用的两个Tools,一个是Error Message Decoder,用于查询Cisco产生的报错信息;另一个是TAC Case Collection,是Cisco之前所有出现并已解决的Case库,如果你的问题在这个Case库中能查到,那么它会有相应的解决方法显示。
这个案例中,我用到了Error Message Decoder,将“%OIR-SP-6-PWRFAILURE”作为查询条件,很快就查到了对应的错误信息描述:
根据显示信息的内容,我知道这个故障需要通过更换硬件才能解决。于是,就告诉用户与他们的产品供应商联系,将错误信息发送过去,申请硬件更换。至此,我的任务就算完成了。
|