Uptime Institute: человеческие ошибки и сбои в электроснабжении — причина большинства отключений ЦОД

 

Предотвращение перебоев в работе остаётся стратегическим приоритетом для владельцев и операторов ЦОД. Хотя инфраструктурное оборудование улучшилось, сложность современных архитектур и развивающиеся внешние угрозы представляют новые риски, которыми операторы должны активно управлять, отмечено в исследовании Annual outage analysis 2025 организации Uptime Institute, в котором использовались данные опросов участников отрасли ЦОД в 2024–2025 гг.

Согласно исследованию, четвёртый год подряд увеличивается время безотказной работы объектов — общая частота сбоев в работе и общий уровень заявленной серьёзности инцидентов продолжают снижаться. Однако количество кибератак растёт, что часто приводит к серьёзным и долговременным последствиям.

По данным исследования Uptime Institute Global Data Center Survey 2024, около 53 % операторов ЦОД сообщили о случаях аварийного отключения за последние три года, что продолжает тенденцию снижения показателя по сравнению с предыдущими годами — 60 % сообщений о сбоях в 2022 году, 69 % в 2021 году и 78 % в 2020 году. Но в 2024 году падение замедлилось, сократившись по сравнению с 55 % в 2023 году на 2 п.п.

 Источник изображений: Uptime Institute

Источник изображений: Uptime Institute

Как сообщается, замедление темпов улучшения не означает самоуспокоенность компаний. В данном случае операторы сталкиваются с растущими внешними рисками, которые в значительной степени находятся вне их контроля, включая ограничения в работе энергосистем, экстремальные погодные условия, сбои в работе сетевых провайдеров и проблемы с ПО сторонних производителей.

Также исследователи отметили признаки снижения интенсивности перебоев в работе. Только 9 % зарегистрированных инцидентов в 2024 году были классифицированы как серьёзные — самый низкий уровень с точки зрения времени безотказной работы на сегодняшний день. По мнению аналитиков, это свидетельствуют о том, что текущие инвестиции отрасли в обеспечение безопасности — за счёт резервирования, совершенствования процессов и соблюдения производственной дисциплины — дают ощутимый эффект.

В 2024 году выросло количество отключений из-за проблем с ИТ и сетями, составив в общей сложности 23 % от общего числа серьёзных перебоев. Этот рост, вероятно, вызван усложнением IT-инфраструктур и сетей, что приводит к проблемам с управлением изменениями и неправильной конфигурацией. За девять лет мониторинга Uptime общедоступных сообщений о сбоях на долю сторонних поставщиков ИТ-услуг и услуг ЦОД, в том числе облачных и интернет-гигантов, телекоммуникационных компаний и колокейшн–компаний, пришлось около двух третей зарегистрированных сбоев.

В 2025 году доля отключений, связанных с человеческими ошибками и вызванных несоблюдением процедур, выросла на 10 п.п. по сравнению с 2024 годом. Как полагают исследователи, это может быть следствием быстрого роста отрасли ЦОД, и вызванной этим нехваткой персонала во многих регионах. В связи с этим больше внимания уделяется обучению персонала и оперативной поддержке в режиме реального времени, что может снизить риски более эффективно, чем улучшение документации и процессов, хотя они тоже важны. Это подтверждают результаты опроса, согласно которому четыре из пяти (80 %) операторов считают, что улучшение управления и процессов позволило бы предотвратить последний инцидент с простоем в их организации.

Согласно исследованию, за последние три года около 40 % организаций столкнулись с серьезными перебоями в работе, вызванными человеческими ошибками. В 58 % случаев это было вызвано несоблюдением сотрудниками процедур, а 45 % случаев были связаны с некорректными процессами или процедурами, регламентирующими работу персонала. При этом Uptime утверждает, что рассматривает человеческие ошибки как способствующий фактор, а не как первопричину отключений, хотя они напрямую или косвенно играют роль в большинстве инцидентов.

Основной причиной серьёзный аварийных отключений ЦОД остаются проблемы, связанные с питанием. На них приходится более половины всех инцидентов. Более одного из четырёх респондентов сообщили, что в течение последних трёх лет серьезный сбой в работе IT был вызван неполадками в питании объекта. Наиболее часто это связано с отказом ИБП, что недавно привело к шестичасовому отключению Google Cloud.

Другие элементы в цепочке питания также могут вызывать такие проблемы, как периодические сбои в подаче энергии и неправильное управление или неправильно настроенное переключение на генераторы, отметили исследователи.

Также была указана как растущая проблема нестабильность сети. Растущий спрос, устаревшая инфраструктура, экстремальные погодные условия и изменчивость возобновляемых источников энергии могут увеличить частоту сбоев питания, что подчёркивает необходимость надёжных локальных систем. Как отметил The Register, ЦОД, расположенные вблизи лондонского аэропорта Хитроу, продолжили работу, несмотря на отключение электроэнергии, которое вынудило приостановить приём и отправку большого количества рейсов в марте. Дата-центры Испании и Португалии тоже успешно пережили крупнейший блэкаут в истории стран.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источник:

Постоянный URL: https://servernews.ru/1122580

Комментарии

Система Orphus