gpfs 文件系统故障导致硬盘重启重启

GPFS文件系统发生故障，导致数据传输中断。在这个过程中，四台IO节点依旧能够正常发送IO，但磁盘柜内的硬盘却频频离线。重启之后虽然短时间恢复，但随后又不断掉线。为了避免业务中断，现场采取了断电重启的手段，强行让硬盘重新上线并启动重建过程。这个临时措施看似有效，但没过多久就再度失灵。经过两周的紧张排查，发现SAS连接线缆老化是罪魁祸首。这一问题导致机箱背部接口时序发生偏移，进而引发硬盘识别失败。为了解决这个问题，技术人员决定更换整个机箱。更换机箱的过程看似简单，实则充满了挑战。他们需要记录每一块硬盘在旧机箱中的位置并贴上标签。接着卸下旧机箱并装上一个新机箱，然后把硬盘按原位置插回去，让控制器重建RAID组。之后重新映射vdisk，最后GPFS文件系统恢复正常运行。然而现实远比预想中复杂得多。刚换上新机箱时，硬盘竟然没有任何反应。经过测试发现新控制器和旧控制器的内存容量不一致，导致底层驱动加载失败。这时团队不得不把新旧控制器的Raid状态同步起来，但新控制器报出了未知错误。为了让同步继续进行，团队不得不先清除报错日志再重启控制器。由于盘符变更，GPFS的nsd对应关系也全部混乱了。最终这一过程以mmchnsd命令批量替换nsd的旧盘符为新盘符而告终，文件系统顺利启动并回到正常状态。从故障发生到完全恢复共计花费了三天两夜的时间。这个故事告诉我们，存储故障不仅仅是简单的换盘或换机箱操作背后还涉及到硬件兼容性、固件版本、操作系统和文件系统之间多层次的博弈关系。只有平时对每一条线缆、每一颗螺丝都进行极致打磨才能够在不影响生产的前提下实现以不变应万变。