Согласно выводам независимого расследования сентябрьского инцидента с ошибкой обновления брандмауэра телеком-оператора Optus, в результате которого умерло два человека (ранее сообщалось о трёх умерших), не сумевших дозвониться в экстренные службы, технические специалисты допустили не менее 10 ошибок, сообщает The Register.
Номер 000 в Австралии служит для вызова скорой и иных экстренных служб, местные телеком-провайдеры обязаны обеспечить перенаправление звонков операторам службы спасения. 18 сентября 2025 года провайдер Optus в течение 14 часов кряду не мог обеспечить соответствующую связь. Более того, он даже не подозревал о существовании проблемы — о ней сообщили клиенты, позвонившие в колл-центр компании. В результате сбоя 455 звонков в службу 000 остались без ответа, двое звонивших умерли.
На днях Optus опубликовала доклад доктора Керри Шотт (Kerry Schott) с подробным разбором инцидента. Как оказалось, инженеры допустили целый ряд ошибок и проигнорировали первые сигналы о возможных проблемах. Часть специалистов не посещали заседания, где оценивались возможные последствия запланированных работы. Сами работы проводились в необоснованной спешке, а проконтролировать некоторые результаты и вовсе было невозможно.
Optus планировала провести 18 обновлений брандмауэров, но без сбоев удалось провести только 15. Для 16-го Optus выпустила некорректные инструкции для своего подрядчика — компании Nokia. Сотрудники Optus потребовали изменений конфигурации, в результате которых сетевые устройства попадали в изоляцию, а доступ к шлюзу блокировался, т.е. трафик невозможно было перенаправить. Подобная процедура не применялась Optus в ходе шести предыдущих обновлений брандмауэров.
В Nokia же почему-то выбрали устаревшую процедуру (Method of Procedure) от 2022 года, не подходившую для текущих работ. Также инженеры Nokia некорректно посчитали, что проводимые работы не повлияют на сетевой трафик. Optus со своей стороны присвоила работам статус срочных, что фактически означало отказ от предварительных проверок. После обновления и Nokia, и Optus зарегистрировали признаки сбоев в сете, но обе не придали им значения.
В 02:40 по местному времени обновление было завершено, а команды сделали финальную проверку, которая показала, что уровень отказов вызовов рос, хотя ожидалось его снижение, но сама аномалия выявлена не была. Наконец, Optus ошибочно решила использовать недостаточно детализированные общенациональные данные для оценки колебаний объёмов вызовов, в результате чего локальные сбои, вызванные неудачным обновлением, не удалось заметить.
По словам эксперта, причинами сбоя стали плохое управление и низкое качество работы Optus и Nokia — процедуры не соблюдались, методы работы были выбраны неверные, проверок было мало, меры контроля обходились, а на предупреждения обращали слишком мало внимания. Специалисты Optus оказались слишком нерешительными для своевременного обращения к более опытным сотрудникам, а основной приоритет отдавался скорости решения задачи, а не корректности выполненных работ. Самые жёсткие отзывы касаются деятельности команд, участвовавших в неудачном обновлении. Отмечается, что такой сбой во время стандартного обновления брандмауэра непростителен — необходимо организовать значительно более строгий контроль за персоналом и работой Nokia.
Но и этим дело не ограничивается. Недавно выяснилось, что в сетях операторах TPG, Optus и Telstra невозможно дозвониться до 000 с некоторых смартфонов Samsung с устаревшим ПО, что уже привело минимум к одной смерти. Отмечается, что австралийские телеком-операторы пытаются перенаправить трафик во время сбоев, но это нелегко, и усложняется тем, что разные смартфоны ведут себя при возникновении проблем по-разному. Optus рекомендует клиентам проверять возможность дозвона до 000, а также ведёт список «проблемных» устройств. Тем не менее, неприятности могут возникнуть у владельцев «серых» гаджетов, которые покупаются онлайн или за границей.
Сбои в информационных системах происходят довольно часто, и не всегда они несут лишь финансовые или просто технические проблемы. Так, в июле 2024 года глобальный сбой из-за обновления CrowdStrike затронул 8,5 млн ПК на Windows. Годом позже выяснилось, что от него пострадало не менее 750 больниц в Соединённых Штатах, хотя в CrowdStrike резко раскритиковали исследование.
Источник:
