По данным Google, причиной недавнего шестичасового перебоя в работе одного из облачных регионов компании стали, как это ни иронично, источники бесперебойные питания — они не только не выполнили свою задачу, но и помешали наладить нормальную работу. В результате сбоя наблюдалась деградация более 20 сервисов Google Cloud или отсутствие доступа к ним в зоне us-east5-c, расположенной в Коламбусе (Columbus, Огайо). Инцидент произошёл 29 марта в США, сообщает The Register.
В докладе Google, посвящённом инциденту, говорится, что перебои с электричеством начались с отказом энергосети в соответствующей зоне. Обычно у гиперскейлеров всё предусмотрено на этот случай — сначала включаются источники бесперебойного питания (ИБП) для немедленного возобновления электроснабжения, затем запускаются дизельные генераторы.
Однако в данном случае ИБП пережили «критический отказ батарей» и попросту не заработали. Более того, похоже, именно из-за них энергия от генераторов тоже не смогла достичь оборудования, поскольку инженерам пришлось подключать последние в обход ИБП, так что на восстановление питания ушло почти два часа. Вскоре после этого большинство сервисов Google возобновило работу, но часть из них пришлось перезапускать вручную, что тоже отняло время.
Google выразила глубочайшие извинения и обязалась предотвращать повторение проблемы в будущем. Для этого компания пообещала:
- усовершенствовать восстановление кластеров после отключения питания, чтобы сервисы возвращались в строй быстрее;
- проверить системы переключения питания и исправить недочёты;
- разобраться с поставщиком ИБП, чтобы избежать проблем в будущем.
Обычно гиперскейлеры делают акцент на надёжности своих систем. В основном они действительно надёжны, но иногда что-то идёт не так. При этом перебои с электричеством — явление не уникальное, в том числе в США — крупный, но не столь продолжительный инцидент зарегистрировали тоже в марте. Более того, с аккумуляторами связаны и другие происшествия, менее безобидные. Они становятся причиной пожаров, как это, например, произошло в ЦОД Digital Realty в Сингапуре. Как отмечает Uptime Institute, именно проблемы с питанием чаще всего становятся причиной сбоев ЦОД, но избавиться от них не позволяет человеческий фактор.
Источник: