Материалы по тегу: сбой

20.05.2024 [13:50], Руслан Авдеев

Google Cloud умудрилась поломать собственную сетевую инфраструктуру, но быстро исправилась

Прошла всего неделя после того, как Google удалила облачную учётную запись австралийского пенсионного фонда UniSuper, но, похоже, инженеры компании только начинают входить во вкус. По данным The Register, в минувшую пятницу Google Cloud нарушила работу десятков сервисов.

Изначально в Google Cloud объявили о запуске «автоматизации техобслуживания для отключения неиспользуемого компонента контроля сети в одной локации». Но в результате отключение состоялось сразу в 40 локациях, так что почти три часа пользователи 33 сервисов Google Cloud, включая крупные службы вроде Compute Engine и Kubernetes Engine, столкнулись с рядом проблем:

  • новые инстансы не имели сетевого подключения;
  • перенесённые/перезапущенные виртуальные машины потеряли сетевое подключение;
  • конфигурации виртуальных сетей (брандмауэров и т.п.) обновить не удалось;
  • частичная потеря пакетов для отдельных сетевых потоков VPC (Virtual Private Cloud) в регионах us-central1 и us-east1;
  • невозможность выделения портов (DPA) в Cloud NAT;
  • сбои при создании новых узлов и пулов GKE (Google Kubernetes Engine).

Прочие сервисы, требовавшие использования виртуальных машин в Google Cloud Engine или обновление конфигураций сети, столкнулись с проблемами с 15:22 по 18:10 по тихоокеанскому времени США.

 Источник изображения: NOAA/unsplash.com

Источник изображения: NOAA/unsplash.com

В Google объяснили инциденты ошибкой в системе автоматизированного отключения сетей. После перезапуска некорректно работавшего компонента проблема была устранена. Инструмент автоматизации заблокировали до принятия необходимых мер безопасности, а клиентам сообщили, что пока риска повторения сбоев нет. Впрочем, подмоченная репутация компании позволяет усомниться в её заявлениях. Облачное подразделение Google пообещало со временем раскрыть больше информации о произошедшем.

Постоянный URL: http://servernews.ru/1105075
09.05.2024 [21:40], Владимир Мироненко

Google Cloud случайно удалила частное облако австралийского пенсионного фонда UniSuper. И запасное тоже

Около недели более полумиллиона участников австралийского пенсионного фонда UniSuper не имели доступа к своим аккаунтам из-за сбоя, который привёл к удалению частного облака фонда в Google Cloud, пишет The Guardian. Главы UniSuper и Google Cloud выступили с совместным заявлением, согласно которому это был «отдельный, “единственный в своем роде случай”, который никогда раньше не происходил ни с одним из клиентов Google Cloud во всем мире».

В Google Cloud отметили, что «сбой произошёл из-за беспрецедентной последовательности событий, в результате которых непреднамеренная неправильная конфигурация во время предоставления услуг частного облака UniSuper в конечном итоге привела к удалению подписки фонда на частное облако». Облачный провайдер заявил, что выявил события, которые привели к этому сбою, и принял меры, чтобы это больше не повторилось.

 Источник изображения: UniSuper

Источник изображения: UniSuper

UniSuper дублирует данные в двух географических регионах, чтобы восстановить работу в случае потери одного из них. Но поскольку была удалена облачная подписка фонда целиком, это привело к потере в обоих облачных регионах. К счастью, фонд имел резервные копии у другого провайдера, поэтому данные удалось восстановить. Ранее UniSuper распределял рабочие нагрузки между сервисами Azure и двумя собственными ЦОД, но в прошлом году перенёс большую часть нагрузок на платформу Google Cloud Platform. UniSuper управляет средствами на сумму около $125 млрд.

К полудню четверга по австралийскому времени облачная инфраструктура UniSuper восстановила работу, а участники фонда получили доступ к своим аккаунтам. Вместе с тем балансы счетов пока не будут обновляться, хотя, как сообщается, часть операций уже доступна, а финансы участников не пострадали. Google также заверила членов UniSuper, что сбой не был вызван кибератакой и, следовательно, их конфиденциальные данные не были раскрыты неавторизованным лицам.

Сбои облачных сервисов случались и раньше, причём с ним сталкивались и основные провайдеры, включая AWS и Microsoft Azure. Но они справлялись с проблемами довольно быстро, чего не произошло в случае с UniSuper. Это может нанести ущерб Google с репутационной точки зрения и вызвать у клиентов недоверие к компании как поставщику услуг, говорит глава EEITrend. «На устранение сбоя в облаке UniSuper в Google Cloud в Австралии ушло необычно много времени, что негативно влияет на репутацию Google Cloud в регионе», — отметил он.

Постоянный URL: http://servernews.ru/1104573
18.04.2024 [16:38], Руслан Авдеев

Сбой Microsoft Azure в Южной Африке был вызван массовым повреждением подводных кабелей сразу на двух побережьях континента

В марте облако Microsoft Azure в Южной Африке пострадало от масштабного сбоя. Datacenter Dynamics сообщает, что его причиной стали повреждения кабелей, проложенных по морскому дну. Как информируют в Microsoft, нарушения в работе 14 и 15 марта произошли в северном и восточном облачных регионах Azure в стране.

Позже выяснилось, что причиной стали повреждения кабелей как у восточного, так и у западного побережий Африки. В Microsoft заявляют, что в ЮАР у компании работала схема резервирования 4x — весь трафик в регион и из него шёл четырьмя отдельными путями на случай, если одна из магистралей пострадает. Даже если будут повреждены три из четырёх маршрутов, облако всё равно должно нормально функционировать.

Однако в этм случае ущерб был нанесён «трём с половиной из четырёх» маршрутов, так что у Microsoft не осталось возможностей организовать стабильную работу. Первая проблема возникла в Красном море. Сегодня предполагается, что причиной повреждения кабелей стал корабль, своим якорем буквально вспахавший участок морского дна. Microsoft регулярно проводит моделирование возможных инцидентов и отрабатывает меры борьбы с ними. После сбоя на восточном побережье компания занялась наладкой обходных маршрутов, так что работы уже велись к моменту второго сбоя.

 Источник изображения: Ibrahim Rifath/unsplash.com

Источник изображения: Ibrahim Rifath/unsplash.com

Следующий обрыв произошёл из-за сейсмической активности у западного побережья Африки недалеко от Ганы. Он оставил Microsoft без достаточной пропускной способности. К месту обрыва были отправлены ремонтные корабли из Кейптауна. Хотя обрывы кабелей происходят довольно часто, именно подводные линии чинить намного сложнее — иногда они находятся в тысячах километрах от любого порта, а специальных ремонтных судов во всём мире очень мало. Если на ремонт наземного кабеля обычно уходит от четырёх до шести часов, то морского — недели, если не больше.

После второго инцидента Microsoft ускорила прокладку пятого маршрута, от Йоханнесбурга к облачному региону в ОАЭ. Кроме того, инвестировано более $100 млн в расширение пропускной способности с помощью собственного оборудования Microsoft. Ещё одной мерой стал перенос edge-площадки из Нигерии в ЮАР — местным клиентам Microsoft придётся перенаправлять трафик в другие облачные регионы. После того, как кабели починят, площадка в Нигерии вернётся к нормальной работе. Наконец, Microsoft пользуется услугами брокера для аренды необходимой пропускной способности, который и решает, какие сервисы будут получать ресурсы в приоритетном порядке.

В феврале 2024 года Microsoft анонсировала планы строительства нового кампуса ЦОД в Центурионе (Южная Африка). Компания стала первым облачным провайдером, зашедшим в страну, ещё в 2019 году она открыла два региона Azure в Йоханнесбурге и Кейптауне. Впрочем, в 2021 году облако в последнем исключили из перечня активных, переклассифицировав в «регион резервного доступа».

Постоянный URL: http://servernews.ru/1103489
07.04.2024 [13:22], Руслан Авдеев

Проблемы с питанием чаще всего становятся причиной сбоев ЦОД, но избавиться от них не позволяет человеческий фактор

Частота и серьёзность сбоев в ЦОД постепенно снижается относительно общей ёмкости объектов. Тем не менее, сообщает The Register, нарушения работы могут очень дорого обойтись операторам и их клиентам, а проблемы с электропитанием ведут к особенно серьёзным последствиям.

Ёмкость дата-центров постоянно увеличивается, так что общее количество инцидентов тоже растёт, но по данным Uptime Institute, частота и тяжесть происшествий увеличивается относительно медленными темпами. И хотя их стало больше в абсолютном значении, темпы прироста заметно упали в последние годы. На то имеется ряд причин, включая тот факт, что многие организации стали интенсивно вкладываться в обеспечение надёжности работы оборудования. Среди других причин называются переход клиентов в облака и внедрение новых технологий для соответствия требованиям регуляторов.

 Источник изображения: Uptime Institute

Источник изображения: Uptime Institute

Однако Uptime Institute предупреждает, что данные о перебоях могут оказаться не вполне точными, потому что операторы зачастую не желают раскрывать информацию об инцидентах из-за возможного репутационного ущерба, так что сведения приходится собирать из открытых источников. В докладе Annual Outage Analysis 2024 констатируется, что 55 % опрошенных представителей операторов подтвердили, что в последние три года в их ЦОД были перебои. С другой стороны, годом ранее речь шла о 60 %, а в 2021 году — о 69 %. В то же время только 10 % сбоев за последний год оценили как «серьёзные» или «тяжёлые», тогда как двумя годами ранее таковых было на 14 п.п. больше.

54 % респондентов отметили, что самые значимые происшествия в их компаниях обошлись более чем $100 тыс., а 16 % — более $1 млн. Главной причиной называлась проблема с системой распределения энергии на местах, в докладе эта тема отмечается в 52 % инцидентов. Исследователи говорят, что переход на более «динамичные» электросети с возобновляемыми источниками энергии сделал сети питания менее надёжными. При этом в ряде случаев ИБП/генераторы не смогли корректно отреагировать на отказ сети. Например, ровно это вызвало перебои с сервисами Microsoft Azure в Европе в 2023 году.

 Источник изображения: Uptime Institute

Источник изображения: Uptime Institute

Вторая из ключевых причин сбоев — поломка или недостаточная производительность охлаждающего оборудования. Эксперты отметили, что количество проблем со сторонними сервисами выросло с 2020 года вдвое — на них приходится порядка 10 % сбоев в 2023 году. Это связано с ростром популярности облачных сервисов, в том числе SaaS, услуг хостинга и колокации.

Во многих случаях играют роль человеческие ошибки — на них приходится от ⅔ до ⅘ всех инцидентов. Виной некорректное соблюдение процедур по обслуживанию оборудования или некорректность самих процедур. Например, в прошлом году на Нью-йоркской фондовой бирже (NYSE) сотрудник не смог корректно восстановить работу систем после сбоя во вспомогательном ЦОД, что привело к неверному ценообразованию на следующий день. Предполагается, что количество сбоев можно будет уменьшить благодаря более интенсивным тренировкам персонала и аудиту вероятных слабых мест.

 Источник изображения: Uptime Institute

Источник изображения: Uptime Institute

По данным Uptime Institute, каждый год случается 10–20 крупных отказов оборудования ЦОД в мире, что ведёт к серьёзным финансовым потерям и перебоям в обслуживании клиентов, а во многих случаях и к репутационным издержкам. В любом случае недавно в Uptime Institute сообщали, что в ближайшие годы затраты на строительство и обслуживание дата-центров будут только расти.

Постоянный URL: http://servernews.ru/1102828
16.03.2024 [20:57], Руслан Авдеев

Сбой в работе подводных кабелей вновь вызвал перебои с интернетом в Африке

Нарушение работы четырёх подводных кабелей к западу от побережья Африки привело к перебоям с интернетом на всём континенте. По данным Bloomberg, кабели West Africa Cable System, MainOne, South Atlantic 3 и ACE пострадали в четверг или пятницу, что сказалось на работе местных мобильных операторов и интернет-провайдеров. Причина до сих пор не установлена.

В первую очередь пострадал запад Африки, больше всего — Кот-д'Ивуар, Либерия и Бенин. Критические проблемы возникли и в Гане, Нигерии и Камеруне. Появились сообщения и о перебоях со связью в Южной Африке. По другим данным, связь обрывалась также в Сенегале и Португалии, из-за чего телеком-операторам пришлось потрудиться над восстановлением работоспособности сетей. В прошлом году West African Cable System наряду с South Atlantic 3 пострадали после подводного оползня. На ремонт повреждённой инфраструктуры ушло около месяца.

 Источник изображения:  Ryan O'Shea/unsplash.com

Источник изображения: Ryan O'Shea/unsplash.com

Примечательно, что не прошло и месяца с тех пор, как три оптоволоконных кабеля оборвали в Красном море, предположительно якорем повреждённого грузового судна. Акватория Красного моря является критически важным маршрутом для телекоммуникационных магистралей, связывающих Европу с Азией и Африкой. Из-за обрыва трафик пришлось направить по другим маршрутам, в том числе вдоль западного африканского побережья. Проблемы со связью в любой части континента означают рост нагрузки на оставшуюся инфраструктуру.

Крупнейшие в Африке операторы беспроводной связи MTN Group Ltd. и Vodacom Group Ltd. заявили, что сбои в работе подводных кабелей негативно сказались на качестве услуг. Vodacom сообщала, что проблемы связи Африки с Европой сохраняются, в том числе и у других бизнесов. Например, Microsoft объявила о перебоях в работе облачных сервисов, включая Microsoft 365, причём речь идёт не только о западном, но и о восточном побережье Африки. Пострадал и островной Маврикий, местной Mauritius Telecom Ltd. тоже пришлось перенаправлять трафик.

Постоянный URL: http://servernews.ru/1101824
06.03.2024 [01:44], Владимир Мироненко

Из-за повреждения подводных интернет-кабелей в Красном море сократился трафик между Азией и Европой

В понедельник появились подтверждения сообщений о повреждении телекоммуникационных кабелей, пролегающих по дну Красного моря, сообщило агентство AP News со ссылкой на официальные источники. Некоторые эксперты возлагают вину за это на йеменских хуситов, периодически подвергающих обстрелам проходящие мимо побережья Йемена суда, но те отрицают эти обвинения.

По данным гонконгской компании HGC Global Communications, были повреждены кабели Asia-Africa-Europe 1 (AAE-1), Europe India Gateway (EIG), а также Seacom и TGN-Gulf, являющиеся в данном случае единой кабельной системой. В HGC Global Communications сообщили, что повреждения затронули 25 % трафика, проходящего через Красное море. HGC перенаправила часть трафика до Европы через материковый Китай и США.

 Источник изображения: Seacom

Источник изображения: Seacom

Seacom сообщила Associated Press, что «первоначальное тестирование показывает, что повреждённый сегмент находится в пределах йеменской морской юрисдикции в южной части Красного моря», и что трафик перенаправлен на другие маршруты, хотя некоторые сервисы всё же были отключены. В свою очередь Tata Communications, входящая в индийский конгломерат и обслуживающая кабель Seacom-TGN-Gulf, сообщила AP, что она «предприняла немедленные и соответствующие меры по исправлению положения» сразу после его повреждения.

 Источник изображения: HGC Global Communications

Источник изображения: HGC Global Communications

Не исключено, что кабели могли быть непреднамеренно повреждены якорями, в том числе спущенными с кораблей, выведенных из строя в результате атак. Тем более, что глубина Красного моря на отдельных участках не превышает 100 м. В частности, этой версии придерживаются в Seacom, хотя с точностью говорить об этом можно будет после того, как на место прибудет ремонтное судно. Хуситы предупредили, что кораблям-кабелеукладчикам, заходящим в территориальные воды Йемена, необходимо разрешение «в связи с беспокойством о безопасности».

Сейчас через Красное море проложено 14 подводных кабелей и планируется проложить ещё шесть, сообщил Тим Строндж (Tim Stronge), эксперт по подводным кабелям. «По нашим оценкам, более 90 % коммуникаций между Европой и Азией проходят по подводным кабелям в Красном море, — сказал он. — К счастью, операторы связи встроили в систему высокую степень резервирования — через Красное море проходит множество кабелей».

Постоянный URL: http://servernews.ru/1101275
27.02.2024 [15:30], Руслан Авдеев

Как минимум один подводный интернет-кабель повреждён в Красном море

По данным многочисленных источников, несколько подводных кабелей, вероятно, повреждены в Красном море у побережья Йемена. Datacenter Dynamics сообщает, что ряд СМИ уже возложил вину на йеменские хуситские силы. На ремонт, как считается, может уйти до восьми недель. О возможности проблем такого рода эксперты начали говорить ещё в конце прошлого года.

Один из операторов кабелей подтвердил нарушение инфраструктуры в регионе, но отказался называть точную причину произошедшего. По данным СМИ, повреждения получили сразу четыре кабеля: AAE-1, Seacom, Europe India Gateway (EIG) и TGN. Правда, Seacom и TGN фактически представляют собой единую кабельную систему, операторами которой выступают Seacom и Tata Communications.

 Источник изображения: Ian Simmonds/unsplash.com

Источник изображения: Ian Simmonds/unsplash.com

NetBlocks подтвердила перебои с интернетом в Джибути (на противоположном от Йемена берегу), где сходятся множество подводных кабелей. Seacom также подтвердила проблемы в системе Seacom/TGN, но воздержалась от обвинений какой-либо из сторон. Предполагается, что пострадал сегмент, ведущий из Момбасы (Кения) в Зафарану (Египет). Сейчас компания пытается оценить возможность ремонта в регионе. В компании подтвердили, что место обрыва имеет важное значение из-за обстановки в регионе — операции по обслуживанию и ремонту здесь сейчас затруднены.

В Seacom утверждают, что трафик, предназначавшийся для Европы и других регионов, был автоматически перенаправлен другими маршрутами — по кабельным системам Equiano (фактически в обход Африки), PEACE и WACS. Большую роль играет наличие и наземной инфраструктур. Сервисы клиентам будут предоставляться, но возможно увеличение задержек.

 Источник изображения: TeleGeography

Источник изображения: TeleGeography

По словам некоторых экспертов, судовладельцы, располагающие оборудованием для укладки кабелей, не горят желанием заниматься ремонтом в зоне конфликта. Страховые компании тоже вряд ли согласятся обслуживать корабли, которые попытаются работать в йеменских водах. Кроме того, специализированных судов мало и все они забронированы на месяцы вперёд.

На сегодня Азию с Европой через Красное море связывают 17 кабельных систем разной степени готовности. Как и Суэцкий канал в Египте, Баб-эль-Мандебский пролив является «бутылочным горлышком» между Ближним Востоком и Африкой. В районе Красного моря средняя глубина составляет около 490 м, а на некоторых участках — и вовсе 100 м. Другими словами, повредить кабели могут даже слабо оснащённые участники регионального конфликта.

Постоянный URL: http://servernews.ru/1100893
08.02.2024 [16:11], Руслан Авдеев

Сбой до штрафа доведёт: главе сингапурской DBS урезали премию из-за прошлогодних перебоев, вызванных проблемами в ЦОД

Банковская группа DBS из Сингапура урезала премию генеральному директору на 30 %. По данным The Register, руководитель, а также его соратники понесли ответственность за сбои цифровых систем организации в 2023 году. Совет директоров принял решение, что компенсация главе и прочим членам управляющего комитета группы должна быть снижена в качестве наказания за допущение «серии цифровых сбоев в течение года».

Генеральный директор группы Пиюш Гупта (Piyush Gupta) признал, что топ-менеджеры, включая его самого, несут ответственность за сбои и подчеркнул, что подобные меры являются хорошим элементом управления бизнесом. Впрочем, несмотря на уменьшение собственных доходов, Гупта по-прежнему остался в большом плюсе — годовая премия составила $4,14 млн, а всего, согласно отчёту компании, он заработал за 2023 год приблизительно $11,5 млн.

 Источник изображения:  Meriç Dağlı/unsplash.com

Источник изображения: Meriç Dağlı/unsplash.com

Сокращение премий для топ-менеджеров стало ответом на перебои октября 2023 года, когда в течение приблизительно двух дней пользователи полностью или частично потеряли доступ к банковским приложениям. Клиенты и вендоры не могли осуществлять платежи в городе-государстве, почти всецело полагающемся на цифровые финансовые системы — были сорваны миллионы транзакций. Позже выяснилось, что сбои были вызваны техническими проблемами в системе охлаждения ЦОД, причём DBS не смогла нормально переключиться на резервный ЦОД из-за неправильной конфигурации сети.

Гневом обычных пользователей и бизнес-клиентов дело не ограничилось — Валютное управление Сингапура (MAS) выписало банку огромные штрафы и на шесть месяцев запретила DBS сокращать филиалы и сеть банкоматов, усилило контроль над IT-системами компании, а также введи другие санкции. Кроме того, власти Сингапура теперь намерены жёстко отрегулировать деятельность ЦОД и облаков, приравняв их к объектам критической инфраструктуры.

В DBS сообщили, что уже потратили около $60 млн на улучшение технологий и повышение надёжности своей банковской системы. Например, $18,6 млн ушло на консультантов и найм новых топ-менеджеров, включая специалистов по аудиту и управлению рисками. Ожидается, что это позволит избежать перебоев банковских систем, сформировать альтернативные каналы для обработки платежей и поддержания других финансовых инструментов в случае возможных накладок. И, конечно, это позволит сократить время восстановления работоспособности после инцидентов.

Постоянный URL: http://servernews.ru/1100005
01.02.2024 [23:04], Владимир Мироненко

Роскомнадзор рекомендовал провайдерам подключиться к Национальной системе доменных имён во избежание сбоя доступа к их ресурсам

После масштабного сбоя, происшедшего 30 января у мобильных операторов и провайдеров, из-за которого не открывались сайты и приложения в доменной зоне .RU, Роскомнадзор (РКН) рекомендовал российским провайдерам и владельцам автономных систем подключиться к Национальной системе доменных имен (НСДИ), сообщил «Интерфакс».

«Что делать российским провайдерам и владельцам автономных систем, чтобы пользователи всегда имели возможность доступа к вашим ресурсам? Используйте функционал Национальной системы доменных имён», — указано в сообщении РКН. Как пояснили в РКН, для настройки подключения к публичным серверам (резолверам) НСДИ оператору связи необходимо изменить и/или добавить в список DNS-серверов для конечного клиента адреса НСДИ. Любой из них можно будет использовать в качестве основного или дополнительного DNS-сервера.

 Источник изображения: Pixabay

Источник изображения: Pixabay

В настоящее время Минцифры проводит расследование инцидента. По данным ведомства, он был вызван «технической проблемой, связанной с глобальной инфраструктурой DNSSEC» — набором расширений протокола DNS, благодаря которому гарантируется целостность и достоверность данных. Сбой в работе DNS-серверов был отмечен 30 января 2024 года в 18:40, а в 22:13 специалисты Технического центра Интернет и МСК-IX сообщили об устранении проблемы.

Постоянный URL: http://servernews.ru/1099697
16.11.2023 [21:39], Сергей Карасёв

Патч рубль бережёт: не установленное вовремя обновление уже обошлось Rackspace почти в $12 млн

Компания Rackspace Technology, провайдер облачных услуг, продолжает нести финансовые потери в связи с атакой программы-вымогателя, происшедшей в конце 2022 года. Как сообщает ресурс Dark Reading, потери Rackspace из-за этого инцидента приблизились к $12 млн.

Киберинцидент, напомним, случился в начале декабря 2022-го. Масштабный сбой произошёл из-за задержек с установкой патчей для уязвимостей в ПО. В течение нескольких недель Rackspace не могла справиться с последствиями вторжения и, в конечном итоге, приняла решение навсегда отключить свою службу Microsoft Exchange. В связи с кибератакой против компании подан коллективный иск. Ранее говорилось, что расходы Rackspace на устранение последствий кибератаки составят приблизительно $10,8 млн.

 Источник изображения: Rackspace

Источник изображения: Rackspace

Однако теперь стало известно, что сумма окажется больше. Причем есть вероятность, что в дальнейшем компания продолжит нести расходы в связи с инцидентом, поскольку судебные разбирательства продолжаются. Согласно документам, направленным Rackspace в Комиссию по ценным бумагам и биржам (SEC), расходы, касающиеся атаки программы-вымогателя, в I квартале 2023 года составили $1,7 млн, во II квартале — $4,9 млн.

Таким образом, общая сумма потерь только в первом полугодии оценивается в $6,6 млн. Впоследствии к этой цифре были добавлены ещё $5,0 млн, что поднимает общие затраты до $11,6 млн. Rackspace отмечает, что ожидает выплаты в размере $5,4 млн по страхованию в области кибербезопасности. Вместе с тем компания до сих пор не погасила счета на сумму как минимум $6,0 млн, связанные с инцидентом.

Постоянный URL: http://servernews.ru/1096053
Система Orphus