雷暴导致微软 Azure 美国西部服务中断

雷暴导致微软 Azure 美国西部服务中断

雷暴导致微软 Azure 美国西部服务中断

微软于周五确认,一场强雷暴天气导致其美国西部 2 区数据中心大范围市电断供,引发多项服务中断,波及 Azure 云服务及 Microsoft Copilot,数千名用户受到影响。

暴风雨导致备用电源系统全面失效

据微软 Azure 状态页面显示,此次中断始于 5 月 29 日 UTC 时间约 4:27,起因是多次雷击影响了西美国 2 区的多个数据中心设施。备用发电机按设计正常启动,但部分发电机系统在设施负载骤增的情况下未能完全同步,其他发电机则因更大范围的电力中断导致冷却系统同时下线,进而触发热保护机制而自动关闭。

多个可用区同时发生故障,进一步加剧了此次事件的影响。截至太平洋时间上午 8:58,仅 Microsoft Copilot 一项服务就已有逾 2,600 名用户通过 Downdetector 反映出现问题。《印度斯坦时报》报道,当天全天有数千名用户遭遇响应缓慢和连接故障。另一家宕机监测平台证实,此次 Copilot 服务中断发生于 5 月 29 日(周五),持续时间约为一小时。

数十项 Azure 服务受到影响

受影响的服务范围十分广泛,包括 Azure Functions、Azure Kubernetes Service、Azure SQL Database、虚拟机、存储账户、Azure Monitor、Application Insights 和 Log Analytics 等。根据微软 Foundry 状态页面显示,Azure OpenAI Service 当天早些时候也在多个地区出现了错误率升高的情况。

周五下午,微软表示数据中心的市政电力已完全恢复,网络基础设施也已全面正常运行。暖通空调系统恢复正常运转,环境温度趋于稳定。微软确认,包括 Service Bus、App Service、Azure Cosmos DB、Azure Data Factory、Azure Databricks 和 Azure Synapse 在内的多项服务已全部恢复,并运行正常。

残余影响恢复工作正在进行中

截至最新更新(UTC时间周五18:21),微软表示残余影响仅限于两个存储节点上依赖存储的工作负载,目前这两个节点正在进行最终恢复和数据完整性检查,预计在三至四小时内完全恢复。微软建议在配对区域或备用区域拥有资源的客户,在完全恢复确认之前,考虑将流量从美国西部2区切换至其他区域,并建议暂停向该区域部署新资源。

此次事件是微软美国西部数据中心今年第二次因天气原因导致的电力中断。今年2月,美国西部某设施曾发生一次电力中断,导致Windows 11更新和微软商店功能受到影响。