VxRail S670 硬件告警,Drive 6 is removed from disk drive bay 1
Zabbix监控发现VxRail-esxi03服务器出现严重硬盘告警,IDRAC显示DRIVE6接口异常。经检查确认该接口未接硬盘,Dell售后判定为误报并重启IDRAC暂时解决。次日告警重现,确认为硬盘背板故障。本周一Dell工程师上门更换背板,期间需先关闭DRS并迁移虚拟机。更换完成后系统恢复正常,持续观察未再出现告警,问题最终解决。整个过程涉及误报排查、售后协调和硬件更换操作。
上周一zabbix受收到VxRail-esxi03服务器告警,是一条严重告警,和数据有关,这个很严,这个告警数据是zabbix通过服务器的IDRAC信息收集过来的,赶紧登录到服务器的IDRAC界面查看,果然有一个严重告警,提示硬盘接口6有问题。


通过IDRAC可以看到 DRIVE6被拔出,到机房查看 drive6接口根本没有接硬盘。服务器在保,联系dell 400,通过收集日志和远程检查,确认是误报,重启idrac,告警解除。继续观察一周。
第二天又出现了同样的告警信息,再次联系dell官方售后,因为DRIVE6上没有接硬盘,这个误报有可能是硬盘背板误报导致,然后dell400下单安排工程师上门更换主机硬盘背板。
本周一工程师和背板到位,准备关闭机器,更换背板。
首先要迁移走该主机上的所有虚机,或关机,我忘了关闭DRS,关闭了非业务虚机,然后又被动迁移了几台虚机到这台主机上。还是要先关闭DRS。然后迁移活动的虚机,进入维护模式。我这里因为主机上存在关闭的未迁移虚机,选择的是确保可访问性。

进入维护模式后,然后关闭该主机,更换背板,更换后,更换过程是dell工程师完成。
等待几分钟,IDRAC起来后,先进入idrac检查硬件正常,然后开机。

系统正常启动,退出维护模式,开始DRS。观察了一天没有继续告警,问题排除。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)