Материалы по тегу: сбой

04.06.2024 [13:04], Руслан Авдеев

Вся IT-система муниципалитета в Западной Австралии оказалась зависимой от единственного сервера без возможности быстрой замены

В Западной Австралии вскрылся случай вопиющей небрежности местных властей в IT-сфере. Datacenter Dynamics сообщает, что неназванный муниципалитет в регионе полностью положился при создании местной IT-системы на один-единственный сервер — резервирование попросту не предусмотрено. На случай чрезвычайных происшествий предусмотрена замена в течение 48 часов, однако поставщика оборудования об этом даже не уведомили.

Аудит в шести муниципалитетах штата выявил, что ни один из них не готов к IT-инцидентам и к полному восстановлению ключевых систем. В докладе, посвящённом муниципалитету с единственным сервером, указывается, что в случае повреждения сервера в результате инцидента план восстановительных работ (DRP) требует от IT-вендора замены в течение 48 часов. При этом в соглашении с вендором не прописаны ни сроки, ни спецификации оборудования для замены.

 Источник изображения: Josh Withers/unsplash.com

Источник изображения: Josh Withers/unsplash.com

В ходе аудита выяснилось, что муниципальные советы не задокументировали должным образом планы восстановления IT-систем и даже не знали, сработают ли их планы вообще. Соглашения с вендорами также признаны «неадекватными». Все советы полностью полагались в восстановлении работоспособности и тестировании на сторонние компании. Причём в одном случае имелись только устные договорённости, а письменное соглашение начали разрабатывать лишь после аудита.

Генеральный аудитор Кэролайн Спенсер (Caroline Spencer) отметила, что её ведомство постоянно выявляет у органов местного самоуправления проблемы с планированием работ на случай инцидентов с IT-системами. Базовые планы реагирования есть у всех, но никто на практике не готов к сбоям в полной мере. Спенсер подчеркнула, что своевременное восстановление IT-систем сможет снизить финансовые и репутационные издержки и минимизировать задержки с возобновлением обслуживания населения.

Постоянный URL: http://servernews.ru/1105919
27.05.2024 [23:27], Александр Бенедичук

Google Cloud полностью взяла на себя вину за скандальное удаление облака пенсионного фонда UniSuper

Ранее в этом месяце Google Cloud по ошибке удалила учётную запись австралийского пенсионного фонда UniSuper. После восстановления работоспособности систем UniSuper и завершения внутренней проверки компания опубликовала информацию, призванную прояснить характер инцидента.

В соответствии с отчётом, инцидент затронул только и исключительно одного клиента, только один его сервис Google Cloud VMware Engine (GCVE) и только в одном облачном регионе из двух, используемых компанией UniSuper. Резервные копии данных клиента, хранящиеся в Google Cloud Storage (GCS) в том же регионе не пострадали.

По данным Google, во время первоначального развертывания частного облака для клиента в 2023 году операторы Google Cloud случайно неправильно настроили сервис GCVE, оставив поле неназванного параметра пустым. Это привело к непреднамеренному и непредсказуемому результату: частное облако UniSuper было автоматически удалено по истечении одного года (срок жизни по умолчанию), причём без уведомления о событии кого бы то ни было.

 Источник изображения: Google

Источник изображения: Google

Восстановление GCVE, конфигурации сети, систем безопасности, приложений и данных потребовало от команды UniSuper и Google нескольких дней работы в режиме 24×7. Google Cloud предприняла ряд мер для исключения подобных инцидентов в будущем, в том числе проверку вручную всех GCVE-развёртываний других клиентов. Кроме того, теперь процесс создания GCVE полностью автоматизирован и не требует участия живых операторов даже при формировании нестандартных конфигураций.

Однако необычно долгое восстановление сервиса и произошедший спустя неделю после инцидента с UniSuper похожий, а возможно и связанный с описанной историей, сбой в работе Google Cloud ставит под сомнение надёжность облачной платформы в целом, а также в очередной раз показывает, насколько хрупка и уязвима ИТ-инфраструктура и насколько велико значение человеческого фактора.

Постоянный URL: http://servernews.ru/1105487
20.05.2024 [13:50], Руслан Авдеев

Google Cloud умудрилась поломать собственную сетевую инфраструктуру, но быстро исправилась

Прошла всего неделя после того, как Google удалила облачную учётную запись австралийского пенсионного фонда UniSuper, но, похоже, инженеры компании только начинают входить во вкус. По данным The Register, в минувшую пятницу Google Cloud нарушила работу десятков сервисов.

Изначально в Google Cloud объявили о запуске «автоматизации техобслуживания для отключения неиспользуемого компонента контроля сети в одной локации». Но в результате отключение состоялось сразу в 40 локациях, так что почти три часа пользователи 33 сервисов Google Cloud, включая крупные службы вроде Compute Engine и Kubernetes Engine, столкнулись с рядом проблем:

  • новые инстансы не имели сетевого подключения;
  • перенесённые/перезапущенные виртуальные машины потеряли сетевое подключение;
  • конфигурации виртуальных сетей (брандмауэров и т.п.) обновить не удалось;
  • частичная потеря пакетов для отдельных сетевых потоков VPC (Virtual Private Cloud) в регионах us-central1 и us-east1;
  • невозможность выделения портов (DPA) в Cloud NAT;
  • сбои при создании новых узлов и пулов GKE (Google Kubernetes Engine).

Прочие сервисы, требовавшие использования виртуальных машин в Google Cloud Engine или обновление конфигураций сети, столкнулись с проблемами с 15:22 по 18:10 по тихоокеанскому времени США.

 Источник изображения: NOAA/unsplash.com

Источник изображения: NOAA/unsplash.com

В Google объяснили инциденты ошибкой в системе автоматизированного отключения сетей. После перезапуска некорректно работавшего компонента проблема была устранена. Инструмент автоматизации заблокировали до принятия необходимых мер безопасности, а клиентам сообщили, что пока риска повторения сбоев нет. Впрочем, подмоченная репутация компании позволяет усомниться в её заявлениях. Облачное подразделение Google пообещало со временем раскрыть больше информации о произошедшем.

Постоянный URL: http://servernews.ru/1105075
09.05.2024 [21:40], Владимир Мироненко

Google Cloud случайно удалила частное облако австралийского пенсионного фонда UniSuper. И запасное тоже

Около недели более полумиллиона участников австралийского пенсионного фонда UniSuper не имели доступа к своим аккаунтам из-за сбоя, который привёл к удалению частного облака фонда в Google Cloud, пишет The Guardian. Главы UniSuper и Google Cloud выступили с совместным заявлением, согласно которому это был «отдельный, “единственный в своем роде случай”, который никогда раньше не происходил ни с одним из клиентов Google Cloud во всем мире».

В Google Cloud отметили, что «сбой произошёл из-за беспрецедентной последовательности событий, в результате которых непреднамеренная неправильная конфигурация во время предоставления услуг частного облака UniSuper в конечном итоге привела к удалению подписки фонда на частное облако». Облачный провайдер заявил, что выявил события, которые привели к этому сбою, и принял меры, чтобы это больше не повторилось.

 Источник изображения: UniSuper

Источник изображения: UniSuper

UniSuper дублирует данные в двух географических регионах, чтобы восстановить работу в случае потери одного из них. Но поскольку была удалена облачная подписка фонда целиком, это привело к потере в обоих облачных регионах. К счастью, фонд имел резервные копии у другого провайдера, поэтому данные удалось восстановить. Ранее UniSuper распределял рабочие нагрузки между сервисами Azure и двумя собственными ЦОД, но в прошлом году перенёс большую часть нагрузок на платформу Google Cloud Platform. UniSuper управляет средствами на сумму около $125 млрд.

К полудню четверга по австралийскому времени облачная инфраструктура UniSuper восстановила работу, а участники фонда получили доступ к своим аккаунтам. Вместе с тем балансы счетов пока не будут обновляться, хотя, как сообщается, часть операций уже доступна, а финансы участников не пострадали. Google также заверила членов UniSuper, что сбой не был вызван кибератакой и, следовательно, их конфиденциальные данные не были раскрыты неавторизованным лицам.

Сбои облачных сервисов случались и раньше, причём с ним сталкивались и основные провайдеры, включая AWS и Microsoft Azure. Но они справлялись с проблемами довольно быстро, чего не произошло в случае с UniSuper. Это может нанести ущерб Google с репутационной точки зрения и вызвать у клиентов недоверие к компании как поставщику услуг, говорит глава EEITrend. «На устранение сбоя в облаке UniSuper в Google Cloud в Австралии ушло необычно много времени, что негативно влияет на репутацию Google Cloud в регионе», — отметил он.

Постоянный URL: http://servernews.ru/1104573
18.04.2024 [16:38], Руслан Авдеев

Сбой Microsoft Azure в Южной Африке был вызван массовым повреждением подводных кабелей сразу на двух побережьях континента

В марте облако Microsoft Azure в Южной Африке пострадало от масштабного сбоя. Datacenter Dynamics сообщает, что его причиной стали повреждения кабелей, проложенных по морскому дну. Как информируют в Microsoft, нарушения в работе 14 и 15 марта произошли в северном и восточном облачных регионах Azure в стране.

Позже выяснилось, что причиной стали повреждения кабелей как у восточного, так и у западного побережий Африки. В Microsoft заявляют, что в ЮАР у компании работала схема резервирования 4x — весь трафик в регион и из него шёл четырьмя отдельными путями на случай, если одна из магистралей пострадает. Даже если будут повреждены три из четырёх маршрутов, облако всё равно должно нормально функционировать.

Однако в этм случае ущерб был нанесён «трём с половиной из четырёх» маршрутов, так что у Microsoft не осталось возможностей организовать стабильную работу. Первая проблема возникла в Красном море. Сегодня предполагается, что причиной повреждения кабелей стал корабль, своим якорем буквально вспахавший участок морского дна. Microsoft регулярно проводит моделирование возможных инцидентов и отрабатывает меры борьбы с ними. После сбоя на восточном побережье компания занялась наладкой обходных маршрутов, так что работы уже велись к моменту второго сбоя.

 Источник изображения: Ibrahim Rifath/unsplash.com

Источник изображения: Ibrahim Rifath/unsplash.com

Следующий обрыв произошёл из-за сейсмической активности у западного побережья Африки недалеко от Ганы. Он оставил Microsoft без достаточной пропускной способности. К месту обрыва были отправлены ремонтные корабли из Кейптауна. Хотя обрывы кабелей происходят довольно часто, именно подводные линии чинить намного сложнее — иногда они находятся в тысячах километрах от любого порта, а специальных ремонтных судов во всём мире очень мало. Если на ремонт наземного кабеля обычно уходит от четырёх до шести часов, то морского — недели, если не больше.

После второго инцидента Microsoft ускорила прокладку пятого маршрута, от Йоханнесбурга к облачному региону в ОАЭ. Кроме того, инвестировано более $100 млн в расширение пропускной способности с помощью собственного оборудования Microsoft. Ещё одной мерой стал перенос edge-площадки из Нигерии в ЮАР — местным клиентам Microsoft придётся перенаправлять трафик в другие облачные регионы. После того, как кабели починят, площадка в Нигерии вернётся к нормальной работе. Наконец, Microsoft пользуется услугами брокера для аренды необходимой пропускной способности, который и решает, какие сервисы будут получать ресурсы в приоритетном порядке.

В феврале 2024 года Microsoft анонсировала планы строительства нового кампуса ЦОД в Центурионе (Южная Африка). Компания стала первым облачным провайдером, зашедшим в страну, ещё в 2019 году она открыла два региона Azure в Йоханнесбурге и Кейптауне. Впрочем, в 2021 году облако в последнем исключили из перечня активных, переклассифицировав в «регион резервного доступа».

Постоянный URL: http://servernews.ru/1103489
07.04.2024 [13:22], Руслан Авдеев

Проблемы с питанием чаще всего становятся причиной сбоев ЦОД, но избавиться от них не позволяет человеческий фактор

Частота и серьёзность сбоев в ЦОД постепенно снижается относительно общей ёмкости объектов. Тем не менее, сообщает The Register, нарушения работы могут очень дорого обойтись операторам и их клиентам, а проблемы с электропитанием ведут к особенно серьёзным последствиям.

Ёмкость дата-центров постоянно увеличивается, так что общее количество инцидентов тоже растёт, но по данным Uptime Institute, частота и тяжесть происшествий увеличивается относительно медленными темпами. И хотя их стало больше в абсолютном значении, темпы прироста заметно упали в последние годы. На то имеется ряд причин, включая тот факт, что многие организации стали интенсивно вкладываться в обеспечение надёжности работы оборудования. Среди других причин называются переход клиентов в облака и внедрение новых технологий для соответствия требованиям регуляторов.

 Источник изображения: Uptime Institute

Источник изображения: Uptime Institute

Однако Uptime Institute предупреждает, что данные о перебоях могут оказаться не вполне точными, потому что операторы зачастую не желают раскрывать информацию об инцидентах из-за возможного репутационного ущерба, так что сведения приходится собирать из открытых источников. В докладе Annual Outage Analysis 2024 констатируется, что 55 % опрошенных представителей операторов подтвердили, что в последние три года в их ЦОД были перебои. С другой стороны, годом ранее речь шла о 60 %, а в 2021 году — о 69 %. В то же время только 10 % сбоев за последний год оценили как «серьёзные» или «тяжёлые», тогда как двумя годами ранее таковых было на 14 п.п. больше.

54 % респондентов отметили, что самые значимые происшествия в их компаниях обошлись более чем $100 тыс., а 16 % — более $1 млн. Главной причиной называлась проблема с системой распределения энергии на местах, в докладе эта тема отмечается в 52 % инцидентов. Исследователи говорят, что переход на более «динамичные» электросети с возобновляемыми источниками энергии сделал сети питания менее надёжными. При этом в ряде случаев ИБП/генераторы не смогли корректно отреагировать на отказ сети. Например, ровно это вызвало перебои с сервисами Microsoft Azure в Европе в 2023 году.

 Источник изображения: Uptime Institute

Источник изображения: Uptime Institute

Вторая из ключевых причин сбоев — поломка или недостаточная производительность охлаждающего оборудования. Эксперты отметили, что количество проблем со сторонними сервисами выросло с 2020 года вдвое — на них приходится порядка 10 % сбоев в 2023 году. Это связано с ростром популярности облачных сервисов, в том числе SaaS, услуг хостинга и колокации.

Во многих случаях играют роль человеческие ошибки — на них приходится от ⅔ до ⅘ всех инцидентов. Виной некорректное соблюдение процедур по обслуживанию оборудования или некорректность самих процедур. Например, в прошлом году на Нью-йоркской фондовой бирже (NYSE) сотрудник не смог корректно восстановить работу систем после сбоя во вспомогательном ЦОД, что привело к неверному ценообразованию на следующий день. Предполагается, что количество сбоев можно будет уменьшить благодаря более интенсивным тренировкам персонала и аудиту вероятных слабых мест.

 Источник изображения: Uptime Institute

Источник изображения: Uptime Institute

По данным Uptime Institute, каждый год случается 10–20 крупных отказов оборудования ЦОД в мире, что ведёт к серьёзным финансовым потерям и перебоям в обслуживании клиентов, а во многих случаях и к репутационным издержкам. В любом случае недавно в Uptime Institute сообщали, что в ближайшие годы затраты на строительство и обслуживание дата-центров будут только расти.

Постоянный URL: http://servernews.ru/1102828
16.03.2024 [20:57], Руслан Авдеев

Сбой в работе подводных кабелей вновь вызвал перебои с интернетом в Африке

Нарушение работы четырёх подводных кабелей к западу от побережья Африки привело к перебоям с интернетом на всём континенте. По данным Bloomberg, кабели West Africa Cable System, MainOne, South Atlantic 3 и ACE пострадали в четверг или пятницу, что сказалось на работе местных мобильных операторов и интернет-провайдеров. Причина до сих пор не установлена.

В первую очередь пострадал запад Африки, больше всего — Кот-д'Ивуар, Либерия и Бенин. Критические проблемы возникли и в Гане, Нигерии и Камеруне. Появились сообщения и о перебоях со связью в Южной Африке. По другим данным, связь обрывалась также в Сенегале и Португалии, из-за чего телеком-операторам пришлось потрудиться над восстановлением работоспособности сетей. В прошлом году West African Cable System наряду с South Atlantic 3 пострадали после подводного оползня. На ремонт повреждённой инфраструктуры ушло около месяца.

 Источник изображения:  Ryan O'Shea/unsplash.com

Источник изображения: Ryan O'Shea/unsplash.com

Примечательно, что не прошло и месяца с тех пор, как три оптоволоконных кабеля оборвали в Красном море, предположительно якорем повреждённого грузового судна. Акватория Красного моря является критически важным маршрутом для телекоммуникационных магистралей, связывающих Европу с Азией и Африкой. Из-за обрыва трафик пришлось направить по другим маршрутам, в том числе вдоль западного африканского побережья. Проблемы со связью в любой части континента означают рост нагрузки на оставшуюся инфраструктуру.

Крупнейшие в Африке операторы беспроводной связи MTN Group Ltd. и Vodacom Group Ltd. заявили, что сбои в работе подводных кабелей негативно сказались на качестве услуг. Vodacom сообщала, что проблемы связи Африки с Европой сохраняются, в том числе и у других бизнесов. Например, Microsoft объявила о перебоях в работе облачных сервисов, включая Microsoft 365, причём речь идёт не только о западном, но и о восточном побережье Африки. Пострадал и островной Маврикий, местной Mauritius Telecom Ltd. тоже пришлось перенаправлять трафик.

Постоянный URL: http://servernews.ru/1101824
21.09.2023 [18:52], Руслан Авдеев

Энергетический кризис ЮАР привёл к кражам аккумуляторов, генераторов и кабелей на телеком-объектах

Оператор Vodacom, действующий на территории Южной Африки, наметил планы борьбы с участившимися кражами аккумуляторов, питающих базовые станции и иные инфраструктурные объекты. По данным DataCenter Dynamics, ежемесячно в регионе регистрируется 15–28 инцидентов вандализма, связанных с мобильной инфраструктурой, АКБ крадут по 18–30 раз в месяц.

В ЮАР у Vodacom есть 45 млн абонентов, и после каждого инцидента без коммуникаций остаются тысячи человек, а стоимость восстановления связи обходится в лучшем случае в несколько тысяч долларов. Проблема тесно связана с перебоями в электросетях страны и только усугубляет ситуацию — Vodacom Central Region стала использовать резервные источники питания и генераторы для подстраховки, после чего преступники стали красть аккумуляторы, генераторы, кабели и другое вспомогательное оборудование.

Только в мае государственная энергоснабжающая компания Eskom предупреждала, что, возможно, число перебоев с подачей энергии вырастет этой зимой (с июня по август) до беспрецедентного уровня, поскольку в Южной Африке продолжается энергетический кризис. В Eskom предупреждали, что отключения за 32-часовой цикл могут достигнуть 16 часов. В Vodacom уже объявили, что усилили меры безопасности на площадках с базовыми станциями, установив камеры видеонаблюдения. Кроме того, начался монтаж станций в антивандальных контейнерах с сигнализаций.

 Источник изображения: Sergio-sq/pixabay.com

Источник изображения: Sergio-sq/pixabay.com

Также указывается, что некоторые преступники уже предстали перед судом и приговоры за порчу инфраструктуры весьма жёсткие. Например, в мае 2022 года за кражу аккумуляторов базовых станций трое преступников приговорены к 15 годам тюрьмы за каждый эпизод, каждый получил по 30 лет заключения. Аналогичные приговоры выносятся и за кражу генераторов — ущерб для оператора в таких случаях иногда составляет десятки тысяч долларов.

Это не единственная проблема телеком-корпораций в Африке и далеко за её пределами. Так, в Ботсване оператор Botswana Telecommunications Corporation (BTC) наметил планы отказа от медных компонентов в своём оборудовании из-за участившихся краж. Проблема коснулась даже относительно благополучных стран вроде Великобритании — в прошлом месяце преступники оставили без интернета Оксфордшир, украв 500 м медного кабеля, причём это далеко не первый случай.

Постоянный URL: http://servernews.ru/1093166
19.10.2022 [21:48], Сергей Карасёв

Пожар в южнокорейском дата-центре Kakao привёл к остановке 32 тыс. серверов, отказу в обслуживании 45 млн человек, падению акций и отставке топ-менеджера компании

Исполнительный содиректор южнокорейской интернет-компании Kakao Намкун Вон (Namkoong Whon) принял решение подать в отставку после массового сбоя в работе сервисов, спровоцированного пожаром в кампусе ЦОД SK C&C Data Center неподалёку от Сеула, принадлежащем SK Group. Возникшие проблемы вызвали недовольство как со стороны многочисленных пользователей, так и со стороны представителей бизнеса и власти.

Пожар начался 15 октября 2022 года с возгорания в аккумуляторной в одном из зданий ЦОД. В результате была нарушена работа мессенджера KakaoTalk, аудитория которого составляет 43–47 млн пользователей в Южной Корее (при населении всей страны в почти 52 млн человек). Кроме того, возникли сбои в работе платёжной системы KakaoPay, почтовой службы, такси и других сервисов компании. Не был затронут только сервис Kakao Bank, который размещался в другом дата-центре. По состоянию на 17 октября работоспособность большинства функций KakaoTalk была восстановлена, однако доступность ряда служб всё же оставалась ограниченной.

 Источник изображения: Yonhap

Источник изображения: Yonhap

Инцидентом лично заинтересовался президент страны, а стоимость акций Kakao при этом рухнула на 9,5 % — до минимального значения с мая 2020 года. Нарушение работы KakaoTalk негативно сказалось на работе сотен предприятий малого бизнеса, использующих названный мессенджер. Kakao уже сообщила о намерении выплатить компенсации и выяснить причины медленного восстановления работы своих служб. Кроме того, Kakao намерена вложить $325 млн в открытие в 2023 году собственного ЦОД, а в 2024-м будет запущен второй дата-центр.

Любопытно, что в том же кампусе находился и дата-центр Naver, ещё одного южнокорейского IT-гиганта, на работу которого инцидент оказал намного меньшее влияние. Основная претензия к Kakao заключается в том, что у компании не были разработаны планы поведения в экстренных ситуациях. В частности, компания оказалась не готова к тому, что ЦОД будет быстро обесточен после начала пожара. При этом, вероятно, это самый крупный инцидент в ЦОД в мире, поскольку речь идёт об остановке сразу 32 тыс. серверов.

Нужно отметить, что в течение последнего времени пожары охватили сразу несколько крупных ЦОД. В частности, в марте прошлого года пожар уничтожил дата-центр французской компании OVHcloud в Страсбурге. В результате этого ЧП оказались недоступны в общей сложности 3,6 млн веб-сайтов, в том числе ресурсы ряда правительственных организаций, банков, интернет-магазинов и пр. А пожар, случившийся в ЦОД иранской Telecommunication Infrastructure Company (TIC), практически оставил без доступа в интернет всю страну.

Постоянный URL: http://servernews.ru/1076017
20.07.2022 [15:56], Владимир Мироненко

Аномальная жара привела к сбоям в лондонских дата-центрах Google и Oracle

Во вторник, 19 июля, в ЦОД Google Cloud Platform (GCP) в Лондоне произошёл сбой в системе охлаждения, в связи с чем несколько сервисов компании временно вышло из строя. В лондонском регионе облака Oracle тоже возникли проблемы с охлаждением оборудования ЦОД. Сбои произошли из-за рекордной жары в Великобритании — температура превысила +40°C. Некоторые операторы дата-центров были вынуждены принять нестандартные меры, начав обрызгивать водой внешние модули систем кондиционирования, установленные на крыше.

Отключение ряда сервисов Google произошло в 18:13 по местному времени (20:13 мск). В журнале статуса оборудования сбой описан как «связанный с охлаждением». Google заявила, что сбой затронул лишь небольшое количество клиентов. В частности, отключение коснулось сервисов Persistent Disk и Autoscaling. Хотя Google утверждает, что сбой продолжался до 22:00 BST (24:00 мск), в означенное время всё ещё поступали жалобы на ошибки в работе Persistent Disk.

 Изображение: pixabay.com / Gam-Ol

Изображение: pixabay.com / Gam-Ol

С подобными проблемами в Лондоне столкнулась и облачная служба Oracle. Проблемы с перегревом у неё начались примерно в 17:00 по местному времени (19:00 мск). Oracle ранее арендовала ресурсы в ЦОД Equinix в лондонском кампусе Слау, но сейчас не раскрывает местонахождение своих мощностей. «В результате несезонных температур в регионе возникла проблема с частью инфраструктуры охлаждения в центре обработки данных на юге Великобритании (в Лондоне), — говорится в сообщении компании. — Это привело к тому, что часть нашей сервисной инфраструктуры пришлось отключить, чтобы предотвратить неконтролируемые сбои оборудования».

Постоянный URL: http://servernews.ru/1070521