事件的起因是数据中心发生了电压骤降事件,导致了 7 个冷水机组中的 5 个发生故障,只有一个备用机组在工作。令人匪夷所思的是偌大的数据中心,在夜间竟然只有3名工程师值班,尽管这3名工程师已经尽力,但面对这种情况时仍然忙不过来,人手不足而无法及时重启冷水机组。随着温度上升和热警告,微软只能关闭服务器。
新南威尔士州数据中心托管着微软多个大客户的数据,包括但不限于昆士兰银行、捷星航空 (澳航旗下子公司) 等,这次事故导致微软的这些大客户受到严重影响。
从事故报告来看,故障自动转移进行的似乎并不是很顺利,按照设计逻辑,一旦出现故障,服务会自动转移到其他数据中心确保客户不受影响。
此次故障Azure的故障转移也进行了,但效果好像并不是很好,微软表示后续要重新改进。
根据此次初步分析,微软表示已经从数据中心电源/冷却的角度得到了以下一些经验与教训:
由于数据中心园区的规模,夜间团队的人员配备不足,无法时重新启动冷却器。在更好地了解根本问题并采取适当的缓解措施之前,其暂时增加了团队人数。(此前外媒报道是从 3 人增至 7 人团队)
对于这类大型事故,重启水冷机组的紧急操作程序执行速度很慢,微软正在探索改进自动化方案用来应对供电等问题。
展望未来,微软也正在评估如何确保对不同冷水机子集的负载情况进行优先排序,以便首先对最高负载情况执行冷水机组重启。
在工作负载故障切换和设备停机的排序中使用操作手册,可以通过更好的洞察力来确定不同的优先次序。微软正在努力改进冷冻水温度报告,以便根据阈值更及时地决定故障切换/关闭。
2023-09-19 08:03:01
海森大数据