从谷歌大面积瘫痪事件看存储运维三大重要趋势

2024.04.18 大数据在线袁绍龙

近日，谷歌又出现大面积瘫痪事件，导致全球范围内多款Google服务崩溃，这已经是谷歌近半年第三次出现大规模宕机事件，堪称上演宕机“帽子戏法”。

    回顾此次宕机事件，谷歌在出现宕机之后的反应倒是挺快。根据谷歌云官方推特表述，经过谷歌运维工程师近50分钟的紧急处理，相关服务在当地时间凌晨4点32分恢复正常，真是“同是天涯运维人，凌晨加班曾相识”。
    再来看看此次宕机事件的“元凶”－－“internal storage quota issue”，谷歌后续的一份初步调查报告中称：此次宕机的原因是“我们的自动配额管理系统出现了问题，降低了谷歌中央身份管理系统的容量，导致其在全球范围内返回错误。因此，我们无法验证用户请求是否经过认证，并向用户提供错误。”

何谓“自动配额管理”问题？难道之前大部分媒体报道的“磁盘写满”宕机原因都是错的？亦或是“磁盘写满”是表象，“自动配额管理”才是诱因？带着好奇心，大数据在线小编找到了资深存储专家李工，请他详细分析了此次谷歌宕机事件背后的大瓜。

    1  2  下一页>