Современная серверная инфраструктура чрезвычайно сложна и, зачастую, не менее капризна. Причин, могущих вызывать проблемы, множество — от очень сложных до простейших. Но этот случай, пожалуй, является одним из самых экзотических: перебои в работе Google Cloud были вызваны тем, что у стойки, в которой размещалось оборудование, сломались колёсики.
Компания отчиталась об инциденте и постарается избежать подобных проблем в будущем.

Проблемная стойка: виден наклон вперёд
Инцидент произошёл совсем недавно. Некоторые серверы Google Cloud стали работать с перебоями — процессоры уходили в троттлинг, что приводило к потере пакетов. Казалось бы, налицо отказ системы охлаждения, явление, которое в масштабах центров обработки данных Google время от времени должно происходить просто в силу статистики. Однако высланная на место аварии команда инженеров (site reliability engineering, SRE) обнаружила совсем иную картину.

Виновники аварии
Под весом оборудования, установленного в «проблемную» стойку, сломались пластиковые колёсики. Стойка наклонилась вперёд, что нарушило нормальную циркуляцию теплоносителя в системах жидкостного охлаждения — и некоторые процессоры стали перегреваться, включая при достижении критической температуры режим троттлинга.
По всей видимости, случай с колёсиками не первый, поскольку с момента инцидента Goolge начала периодически заменять аналогичные стойки, следуя своему принципу «любая авария происходит только один раз». Подробнее инцидент описан в официальном блоге Google Cloud.
Источник: