Google 称,配置变更原意是应用于单一区域的少数服务器,但却错误应用于多个毗邻区域的大量服务器,导致这些区域停止使用一半以上的可用网络容量,进出这些区域的网络流量试图适应剩余的网络容量,但未能成功。
网络开始拥堵,网络系统对过载流量进行分类,丢弃了大部分对延迟不那么敏感的流量,以保护少数对延迟敏感的流量。Google 称它的工程师团队立刻探测到了问题,但诊断和修复花了更长时间。
在事故期间,YouTube 流量下降了 10%,Google Cloud Storage 下降了 30%,1% 的 Gmail 活跃用户无法接收和发送邮件。
本文素材来自互联网