DELL R760XA 内存无法检测及显卡链路降级
戴尔PowerEdge R760xa是一款高性能、可扩展的2U机架式服务器,专为满足AI、高性能图形和分析等复杂工作负载而设计,内存未被识别可能导致系统可用内存不足,进而影响服务器的整体性能,尤其是在运行内存密集型应用程序时。而GPU链路降级可能对系统性能和功能产生多方面的影响,如链路降级可能导致GPU之间的通信延迟显著增加,以及降级后的链路带宽可能无法满足GPU之间数据传输的需求等。GPU之间的通信效率降低,也会直接影响整个系统的性能。
以下是一个网度通信近期戴尔PowerEdge R760xa服务器维保技术支持的维保案例
一、客户保障反馈故障现象
故障1:客户戴尔PowerEdge R760xa A4位内存:M321R4GA3BB6-CQK无法被检测。
故障2:进入BIOS检测时GPU报错,SLOT36号显卡显示链路降级,GPU型号为NVIDIA A30。该插槽最大速率为最大速率32 GT/s,但是协商出来的只有16 GT/s。
客户在报障反馈设备出现问题后,网度通信立即响应,查到我们在客户现场备用备件,且在客户现场设有驻场工程师可以立即对客户问题进行排查,在短时间内工程师根据客户反馈的信息,使用现场内存备件排查出了客户设备的具体故障。
二、内存检测故障排查
1.排查过程。
1)现场工程师将设备断电后,尝试擦拭内存金手指后重新安装内存,重启检测。
排查 结果:A4内存仍无法被检测到。
2)工程师将A4插槽与A5插槽的内存M321R4GA3BB6-CQK对换,并重启检测。
排查结果:A5插槽内存正常,A4内存仍无法被检测到。
3)工程师将备件内存M321R4GA3BB6-CQK安装进A4内存插槽后重启服务器。
排查结果:A5插槽内存正常,A4内存仍无法被检测到。
2.判断故障原因
工程师判断故障为主板内存插槽故障。
三、解决方法(内存插槽故障)
1.工程师携带备件(主板CRRF2)上门检测及更换备件。
2.更换完成后主板IDRAC界面显示各配件均正常。
四、GPU链路降级问题排查
1、排查过程。
1)工程师将SLOT36号与SLOT38号显卡对调后重启。
结果:SLOT36仍然显示链路降级,SLOT38也显示链路降级。
2)SLOT36与SLOT38号显卡由nvlink桥接器0RWJ7Y桥接,提供nvlink桥接,工程师认为nvlink桥接器的故障也有可能是造成GPU链路降级的原因,遂将nvlink桥接器断开后再对显卡进行重装。
nvlink:nvlink 是由 NVIDIA 开发的一种高速通信协议,主要用于连接 GPU 与 GPU、GPU 与 CPU 之间。拥有高带宽、低延迟等特点,且可以让两个GPU共享内存,提升GPU运行速率。
排查nvlink桥接器:工程师将nvlink桥接器拆除后重新安装后,再次重启机器,36号显卡仍显示链路降级。随后工程师将31/33号显卡nvlink接入36/38显卡上,SLOT36号显卡仍显示链路降级。工程师排除nvlink桥接器故障。
3)排查是否为PCIE插槽问题:SLOT36与SLOT38 PCIE插槽连接在同一配件上,工程师将SLOT 31/33GPU与SLOT36/38两对GPU进行对换。即SLOT36与SLOT31显卡对换,SLOT38与SLOT33显卡对换。
排查结果:GPU成对更换后SLOT36号端口仍显示链路降级,SLOT38与SLOT31/33均检测正常。
2.最终判定定位故障源头
经过一系列排查,工程师最终定位到是配件9PPDN上PCIE插槽故障,建议更换整个9PPDN配件并建议上门时携带NVIDIA A30显卡以作备件备用。
五、排障方案(显卡链路降级)
1.工程师上门更换GPU拓展卡9PPDN。并携带NVIDIA A30备件一并到达客户现场。
2.工程师上门到现场更换配件9PPDN后,BIOS中的硬件诊断检测到一切正常,链路降级已恢复。再次进入IDRAC以检查一切正常,确保服务器正常运行且无任何错误。
六、CASE总结
1.CASE总结:本次客户设备故障为R760XA服务器内存槽故障以及服务器PCIE拓展配件故障。在驻场排查定位故障原因后,工程师携备件上门进行更换后目前客户设备已经恢复正常并接入业务。
2.网度通信维保服务优势
分钟级响应:网度通信在接到客户报障后第一时间启动工程师响应,工程师第一时间准确排查定位故障原因,安排工程师携备件及时上门排障,保障客户设备正常使用业务正常运行。