Авария в ЦОД Google: потеря колеса опасна не только в Формуле-1

 

Современная серверная инфраструктура чрезвычайно сложна и, зачастую, не менее капризна. Причин, могущих вызывать проблемы, множество — от очень сложных до простейших. Но этот случай, пожалуй, является одним из самых экзотических: перебои в работе Google Cloud были вызваны тем, что у стойки, в которой размещалось оборудование, сломались колёсики.

Компания отчиталась об инциденте и постарается избежать подобных проблем в будущем.

Проблемная стойка: виден наклон вперёд

Проблемная стойка: виден наклон вперёд

Инцидент произошёл совсем недавно. Некоторые серверы Google Cloud стали работать с перебоями — процессоры уходили в троттлинг, что приводило к потере пакетов. Казалось бы, налицо отказ системы охлаждения, явление, которое в масштабах центров обработки данных Google время от времени должно происходить просто в силу статистики. Однако высланная на место аварии команда инженеров (site reliability engineering, SRE) обнаружила совсем иную картину.

Виновники аварии

Виновники аварии

Под весом оборудования, установленного в «проблемную» стойку, сломались пластиковые колёсики. Стойка наклонилась вперёд, что нарушило нормальную циркуляцию теплоносителя в системах жидкостного охлаждения — и некоторые процессоры стали перегреваться, включая при достижении критической температуры режим троттлинга.

По всей видимости, случай с колёсиками не первый, поскольку с момента инцидента Goolge начала периодически заменять аналогичные стойки, следуя своему принципу «любая авария происходит только один раз». Подробнее инцидент описан в официальном блоге Google Cloud.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источник:

Постоянный URL: https://servernews.ru/1006035
Поделиться:  

Комментарии

Система Orphus