Plaza 新闻汇总

服务器电源循环无法恢复问题

作者在日常维护服务器的过程中遇到了一些问题,有两台相同的服务器(运行Linux系统)在内核崩溃或挂起之后,简单的电源循环无法恢复到正常状态。

当服务器尝试重启或在内核挂起后进行电源循环时,服务器的系统固件(BIOS)开始在串行控制台上打印大量的错误信息,这些信息包含了机器检查异常(Machine-Check Exception,MCE)的详细信息,例如寄存器状态和错误代码。

经过观察,这些错误信息中有些寄存器值在每次打印时略有不同,而有些则保持一致,例如RIP寄存器。

为了解决此问题,作者将服务器完全断电几分钟,然后重新启动,服务器恢复正常。这表明单纯的电源循环不足以重置某些x86系统组件,需要一定时间的冷却过程。

作者推测,某些系统部件在短暂断电后,由于电容等原因,仍然残留部分电能,无法完全重置。

另外,作者也提出了一种备选解释,即第一次电源循环没有完全重置系统,如果进行第二次循环可能会解决问题。但考虑到断电冷却更快捷,作者最终选择了这种方式。

总而言之,作者通过这次经历发现,某些x86系统部件在单纯的电源循环后无法完全重置,需要进行短暂的冷却才能恢复到正常工作状态。

原文地址
2024-12-25 21:32:14