Материалы по тегу: сбой
25.06.2024 [11:35], Руслан Авдеев
Хакеры-вымогатели заблокировали правительственный ЦОД в Индонезии и требуют $8 млн [Обновлено]Индонезийские государственные IT-сервисы пострадали от атаки хакеров-вымогателей. The Register сообщает, что местные власти сообщили о заражении национального дата-центра, из-за которого нарушено обслуживание как граждан страны, так и иностранцев. Речь идёт об управляемом Министерством связи и информационных технологий (Kominfo) ЦОД National Data Center (он же Pusat Data Nasional, PDN). Инцидент зарегистрирован 20 июня, но правительство объявило о проблеме только в понедельник. Работа PDN заблокирована, это сказалось как минимум на 210 местных организациях, серьёзно пострадали некоторые местные IT-сервисы. В частности, нарушена работа миграционной службы, из-за чего страна не может своевременно справляться с выдачей виз, паспортов и разрешений на проживание. Это уже привело к очередям в аэропортах, но власти уверяют, что автоматизированные сканеры паспортов уже вновь заработали. Пострадала и онлайн-регистрация новых учащихся в некоторых регионах, из-за чего органы самоуправления на местах были вынуждены продлить сроки регистрации. ПО, поразившее системы PDN, представляет собой вариант LockBit 3.0 — версию Brain Cipher. В Broadcom обнаружили этот «штамм» более недели назад. Как сообщили журналистам представители властей, вымогатели требуют выкуп в размере 131 млрд местных рупий ($8 млн), но пока неизвестно, намерены ли его выплачивать. Для того, чтобы оценить значимость суммы для страны, стоит отметить, что президент Индонезии Джоко Видодо (Joko Widodo) в прошлом месяце приказал чиновникам прекратить разработку новых приложений после того, как те запросили 6,2 трлн рупий ($386,3 млн) для разработки нового софта в этом году. По словам президента, 27 тыс. приложений центральных и местных властей дублируют функции друг друга или не интегрированы должным образом. Небрежность с обеспечением устойчивости работы iT-инфраструктуры может привести к непредсказуемым последствиям. В начале июня сообщалось, что вся информационная система одного из муниципалитетов Западной Австралии зависит от одного-единственного сервера без возможности оперативной замены и в случае инцидента последствия могут оказаться катастрофическими. UPD 26.06.2024: правительство Индонезии отказалось выплачивать выкуп и попытается своими силами восстановить работу ЦОД и сервисов. Говорится об обнаружении образцов LockBit 3.0. Это самая крупная атака на госслужбы с 2017 года.
22.06.2024 [14:34], Сергей Карасёв
Галлюцинации от радиации: аппаратные сбои могут провоцировать ошибки в работе ИИ-системКомпания Meta✴, по сообщению The Register, провела исследование, результаты которого говорят о том, что ошибки в работе ИИ-систем могут возникать из-за аппаратных сбоев, а не только по причине несовершенства алгоритмов. Это может приводить к неточным, странным или просто плохим ответам ИИ. Говорится, что аппаратные сбои способны провоцировать повреждение данных. Речь идёт, в частности, о так называемом «перевороте битов» (bit flip), когда значение ячейки памяти может произвольно меняться с логического «0» на логическую «1» или наоборот. Это приводит к появлению ложных значений, что может обернуться некорректной работой ИИ-приложений. Одной из причин ошибок является космическое излучение, причём с ростом плотности размещения ресурсов его влияние нарастает. Впрочем, в современных комплексных системах такие ошибки по разным причинам могут возникать на любом из этапов хранения, передачи и обработки информации. Такие необнаруженные аппаратные сбои, которые не могут быть выявлены и устранены «на лету», называют тихими повреждениями данных (Silent Data Corruption, SDC). Подобные ошибки могут провоцировать изменения ИИ-параметров, что, в конечном счёте, приводит к некорректному инференсу. Утверждается, что в среднем 4 из 1000 результатов инференса неточны именно из-за аппаратных проблем. «Растущая сложность и неоднородность платформ ИИ делает их всё более восприимчивыми к аппаратным сбоям», — говорится в исследовании Meta✴. При этом изменение одного бита может привести к тому, что ошибки будут расти как снежный ком. Для оценки возможных неисправностей предлагается ввести новую величину — «коэффициент уязвимости параметров» (Parameter Vulnerability Factor, PVF). PVF показывает вероятность того, как повреждение конкретного параметра в конечном итоге приведёт к некорректному ответу ИИ-модели Эта метрика, как предполагается, позволит стандартизировать количественную оценку уязвимости модели ИИ к возможным аппаратным сбоям. Показатель PVF может быть оптимизирован под различные модели и задачи. Метрику также предлагается использовать на этапе обучения ИИ и для выявления параметров, целостность которых надо отслеживать. Производители аппаратного оборудования также принимают меры к повышению надёжности и устойчивости работы своих решений. Так, NVIDIA отдельно подчеркнула важность RAS в ускорителях Blackwell. Правда, делается это в первую очередь для повышения стабильности сверхкрупных кластеров, простой которых из-за ошибок обойдётся очень дорого.
18.06.2024 [16:03], Руслан Авдеев
Интернет во Вьетнаме снова под угрозой: отказали три из пяти подводных кабелейБуквально день спустя после начала раздачи во Вьетнаме национальных доменов в зоне .VN, знаменующей укрепление цифрового суверенитета государства, там начались серьёзные неприятности со связью. По данным The Register, 15 июня отказали три из пяти морских интернет-кабелей, связывающих Вьетнам с остальным миром. По информации местного государственного агентства VNA, сбои серьёзно повлияли на связность, а к некоторым зарубежным сайтам вообще очень трудно получить доступ. Пострадал кабель Intra Asia (IA), связывавший Вьетнам с Сингапуром, цифровая магистраль Asia Pacific Gateway (APG) и Sia-Africa-Europe-1 (AAE-1). Полноценно связь до сих пор не восстановлена, так что вся нагрузка пока легла на немногочисленные наземные линии связи. Операторы не сообщают, когда связь восстановится, но в этом нет ничего удивительного, поскольку специализированные корабли для ремонта всегда в дефиците. Кроме того, довольно сложно установить точное место обрыва, а у кораблей могут уйти недели на то, чтобы добраться до него. Точная причина сбоев пока не называется, но ранее подобные инциденты обычно случались из-за естественной деградации кабелей или из-за непреднамеренного повреждения, либо, что бывало намного реже, в результате намеренного саботажа (как, вероятно, в Красном море). В начале 2023 года у Вьетнама уже были подобные проблемы, когда отказали не три, а все пять подводных ВОЛС. Тогда виноватыми назначили китайское рыболовное судно и неопознанный грузовой корабль. В целом именно якори и тралы нередко становятся причиной неумышленного повреждения подводных коммуникаций. Во Вьетнаме активно пытаются улучшить состояние морских кабельных соединений. План правительства предполагает получение ещё 60 Тбит/с через 2–4 новых подводных кабеля. С учётом того, что все пять уже имеющихся кабелей по плану должны сохранить работоспособность к 2025 году, общая пропускная способность каналов связи должна вырасти до 122 Тбит/с. Обрыв кабелей произошёл в не самое удачное время. Местное Министерство информации и коммуникаций 14 июня объявило, что бизнес-пользователи доменных имён BIZ.VN для новых сайтов получат два года бесплатного обслуживания, как и граждане страны от 18 до 23 лет, использующие домен ID.VN в личных целях. Таким образом власти пытаются привлечь к использованию домена .VN побольше местных пользователей. Сейчас национальные использует только четверть вьетнамских компаний, тогда как в развитых странах этот показатель находится на уровне 70 %.
06.06.2024 [15:11], Руслан Авдеев
Virgin Media намерена отсудить €800 тыс. у рыболовов, повредивших её подводный интернет-кабель почти 10 лет назадБританская телеком-компания Virgin Media Wholesale подала в суд на владельцев рыболовецкого траулера Lida Suzanna. По информации Datacenter Dynamic, предположительно именно это судно повредило подводный кабель, соединяющий Ирландию и Великобританию, 26 января 2015 года. Компания подала иск в Ирландии, требуя возместить €800 тыс. ($870 тыс.) ущерба «владельцами и иными заинтересованными лицами», имеющими отношение к траулеру. Проложенный в 1999 году кабель Sirius South протяжённостью 219 км проложен между Дублином и Блэкпулом. Предполагается, что ловившее морских гребешков судно задело дно жёсткими металлическими рамными сетями, повредив телекоммуникационную инфраструктуру. Всего Virgin владеет двумя кабелями между Ирландией и «большим» островом: Sirius South и Sirius North. Последний проложен в пределах Соединённого Королевства между Шотландией и Северной Ирландией. После инцидента оператор быстро переключился на второй кабель, но пользователи заметили падение скорости интернет-доступа. Юристы истцов заявили, что ответчики должны были знать о расположении кабеля, отмеченного на используемых в отрасли картах и в ирландском Морском атласе, поскольку существующие правила обязывают экипаж иметь документы о расположении инфраструктурных цифровых магистралей. Представители владельцев траулера утверждают, что нет никаких доказательств того, что именно этот корабль имеет отношение к инциденту, а за любое повреждение несёт ответственность сама Virgin, не обеспечившая достаточного заглубления и защиты кабеля. В своё время неисправность устранило принадлежащее Orange Marine судно Pierre de Fermat, спустя несколько дней после происшествия. Всего известны 18 случаев повреждения именно этого кабеля с 1999 года, когда его проложила предшественница Virgin — компания NTL. Ранее Virgin Media подавала иск против другого траулера Willie Joe — тоже за повреждения в минувшие годы. Впрочем, в этом случае дело было улажено в 2022 году. Нарушения целостности подводных интернет-кабелей случаются во всём мире довольно регулярно. Например, недавно были повреждены кабели в Красном море и на западе Африки, из-за чего сократился трафик между континентами. А Великобритания даже приобрела специальный корабль для защиты подводных оптоволоконных и силовых кабелей.
04.06.2024 [13:04], Руслан Авдеев
Вся IT-система муниципалитета в Западной Австралии оказалась зависимой от единственного сервера без возможности быстрой заменыВ Западной Австралии вскрылся случай вопиющей небрежности местных властей в IT-сфере. Datacenter Dynamics сообщает, что неназванный муниципалитет в регионе полностью положился при создании местной IT-системы на один-единственный сервер — резервирование попросту не предусмотрено. На случай чрезвычайных происшествий предусмотрена замена в течение 48 часов, однако поставщика оборудования об этом даже не уведомили. Аудит в шести муниципалитетах штата выявил, что ни один из них не готов к IT-инцидентам и к полному восстановлению ключевых систем. В докладе, посвящённом муниципалитету с единственным сервером, указывается, что в случае повреждения сервера в результате инцидента план восстановительных работ (DRP) требует от IT-вендора замены в течение 48 часов. При этом в соглашении с вендором не прописаны ни сроки, ни спецификации оборудования для замены. В ходе аудита выяснилось, что муниципальные советы не задокументировали должным образом планы восстановления IT-систем и даже не знали, сработают ли их планы вообще. Соглашения с вендорами также признаны «неадекватными». Все советы полностью полагались в восстановлении работоспособности и тестировании на сторонние компании. Причём в одном случае имелись только устные договорённости, а письменное соглашение начали разрабатывать лишь после аудита. Генеральный аудитор Кэролайн Спенсер (Caroline Spencer) отметила, что её ведомство постоянно выявляет у органов местного самоуправления проблемы с планированием работ на случай инцидентов с IT-системами. Базовые планы реагирования есть у всех, но никто на практике не готов к сбоям в полной мере. Спенсер подчеркнула, что своевременное восстановление IT-систем сможет снизить финансовые и репутационные издержки и минимизировать задержки с возобновлением обслуживания населения.
27.05.2024 [23:27], Александр Бенедичук
Google Cloud полностью взяла на себя вину за скандальное удаление облака пенсионного фонда UniSuperРанее в этом месяце Google Cloud по ошибке удалила учётную запись австралийского пенсионного фонда UniSuper. После восстановления работоспособности систем UniSuper и завершения внутренней проверки компания опубликовала информацию, призванную прояснить характер инцидента. В соответствии с отчётом, инцидент затронул только и исключительно одного клиента, только один его сервис Google Cloud VMware Engine (GCVE) и только в одном облачном регионе из двух, используемых компанией UniSuper. Резервные копии данных клиента, хранящиеся в Google Cloud Storage (GCS) в том же регионе не пострадали. По данным Google, во время первоначального развертывания частного облака для клиента в 2023 году операторы Google Cloud случайно неправильно настроили сервис GCVE, оставив поле неназванного параметра пустым. Это привело к непреднамеренному и непредсказуемому результату: частное облако UniSuper было автоматически удалено по истечении одного года (срок жизни по умолчанию), причём без уведомления о событии кого бы то ни было. Восстановление GCVE, конфигурации сети, систем безопасности, приложений и данных потребовало от команды UniSuper и Google нескольких дней работы в режиме 24×7. Google Cloud предприняла ряд мер для исключения подобных инцидентов в будущем, в том числе проверку вручную всех GCVE-развёртываний других клиентов. Кроме того, теперь процесс создания GCVE полностью автоматизирован и не требует участия живых операторов даже при формировании нестандартных конфигураций. Однако необычно долгое восстановление сервиса и произошедший спустя неделю после инцидента с UniSuper похожий, а возможно и связанный с описанной историей, сбой в работе Google Cloud ставит под сомнение надёжность облачной платформы в целом, а также в очередной раз показывает, насколько хрупка и уязвима ИТ-инфраструктура и насколько велико значение человеческого фактора.
20.05.2024 [13:50], Руслан Авдеев
Google Cloud умудрилась поломать собственную сетевую инфраструктуру, но быстро исправиласьПрошла всего неделя после того, как Google удалила облачную учётную запись австралийского пенсионного фонда UniSuper, но, похоже, инженеры компании только начинают входить во вкус. По данным The Register, в минувшую пятницу Google Cloud нарушила работу десятков сервисов. Изначально в Google Cloud объявили о запуске «автоматизации техобслуживания для отключения неиспользуемого компонента контроля сети в одной локации». Но в результате отключение состоялось сразу в 40 локациях, так что почти три часа пользователи 33 сервисов Google Cloud, включая крупные службы вроде Compute Engine и Kubernetes Engine, столкнулись с рядом проблем:
Прочие сервисы, требовавшие использования виртуальных машин в Google Cloud Engine или обновление конфигураций сети, столкнулись с проблемами с 15:22 по 18:10 по тихоокеанскому времени США. В Google объяснили инциденты ошибкой в системе автоматизированного отключения сетей. После перезапуска некорректно работавшего компонента проблема была устранена. Инструмент автоматизации заблокировали до принятия необходимых мер безопасности, а клиентам сообщили, что пока риска повторения сбоев нет. Впрочем, подмоченная репутация компании позволяет усомниться в её заявлениях. Облачное подразделение Google пообещало со временем раскрыть больше информации о произошедшем.
09.05.2024 [21:40], Владимир Мироненко
Google Cloud случайно удалила частное облако австралийского пенсионного фонда UniSuper. И запасное тожеОколо недели более полумиллиона участников австралийского пенсионного фонда UniSuper не имели доступа к своим аккаунтам из-за сбоя, который привёл к удалению частного облака фонда в Google Cloud, пишет The Guardian. Главы UniSuper и Google Cloud выступили с совместным заявлением, согласно которому это был «отдельный, “единственный в своем роде случай”, который никогда раньше не происходил ни с одним из клиентов Google Cloud во всем мире». В Google Cloud отметили, что «сбой произошёл из-за беспрецедентной последовательности событий, в результате которых непреднамеренная неправильная конфигурация во время предоставления услуг частного облака UniSuper в конечном итоге привела к удалению подписки фонда на частное облако». Облачный провайдер заявил, что выявил события, которые привели к этому сбою, и принял меры, чтобы это больше не повторилось. UniSuper дублирует данные в двух географических регионах, чтобы восстановить работу в случае потери одного из них. Но поскольку была удалена облачная подписка фонда целиком, это привело к потере в обоих облачных регионах. К счастью, фонд имел резервные копии у другого провайдера, поэтому данные удалось восстановить. Ранее UniSuper распределял рабочие нагрузки между сервисами Azure и двумя собственными ЦОД, но в прошлом году перенёс большую часть нагрузок на платформу Google Cloud Platform. UniSuper управляет средствами на сумму около $125 млрд. К полудню четверга по австралийскому времени облачная инфраструктура UniSuper восстановила работу, а участники фонда получили доступ к своим аккаунтам. Вместе с тем балансы счетов пока не будут обновляться, хотя, как сообщается, часть операций уже доступна, а финансы участников не пострадали. Google также заверила членов UniSuper, что сбой не был вызван кибератакой и, следовательно, их конфиденциальные данные не были раскрыты неавторизованным лицам. Сбои облачных сервисов случались и раньше, причём с ним сталкивались и основные провайдеры, включая AWS и Microsoft Azure. Но они справлялись с проблемами довольно быстро, чего не произошло в случае с UniSuper. Это может нанести ущерб Google с репутационной точки зрения и вызвать у клиентов недоверие к компании как поставщику услуг, говорит глава EEITrend. «На устранение сбоя в облаке UniSuper в Google Cloud в Австралии ушло необычно много времени, что негативно влияет на репутацию Google Cloud в регионе», — отметил он.
18.04.2024 [16:38], Руслан Авдеев
Сбой Microsoft Azure в Южной Африке был вызван массовым повреждением подводных кабелей сразу на двух побережьях континентаВ марте облако Microsoft Azure в Южной Африке пострадало от масштабного сбоя. Datacenter Dynamics сообщает, что его причиной стали повреждения кабелей, проложенных по морскому дну. Как информируют в Microsoft, нарушения в работе 14 и 15 марта произошли в северном и восточном облачных регионах Azure в стране. Позже выяснилось, что причиной стали повреждения кабелей как у восточного, так и у западного побережий Африки. В Microsoft заявляют, что в ЮАР у компании работала схема резервирования 4x — весь трафик в регион и из него шёл четырьмя отдельными путями на случай, если одна из магистралей пострадает. Даже если будут повреждены три из четырёх маршрутов, облако всё равно должно нормально функционировать. Однако в этм случае ущерб был нанесён «трём с половиной из четырёх» маршрутов, так что у Microsoft не осталось возможностей организовать стабильную работу. Первая проблема возникла в Красном море. Сегодня предполагается, что причиной повреждения кабелей стал корабль, своим якорем буквально вспахавший участок морского дна. Microsoft регулярно проводит моделирование возможных инцидентов и отрабатывает меры борьбы с ними. После сбоя на восточном побережье компания занялась наладкой обходных маршрутов, так что работы уже велись к моменту второго сбоя. Следующий обрыв произошёл из-за сейсмической активности у западного побережья Африки недалеко от Ганы. Он оставил Microsoft без достаточной пропускной способности. К месту обрыва были отправлены ремонтные корабли из Кейптауна. Хотя обрывы кабелей происходят довольно часто, именно подводные линии чинить намного сложнее — иногда они находятся в тысячах километрах от любого порта, а специальных ремонтных судов во всём мире очень мало. Если на ремонт наземного кабеля обычно уходит от четырёх до шести часов, то морского — недели, если не больше. После второго инцидента Microsoft ускорила прокладку пятого маршрута, от Йоханнесбурга к облачному региону в ОАЭ. Кроме того, инвестировано более $100 млн в расширение пропускной способности с помощью собственного оборудования Microsoft. Ещё одной мерой стал перенос edge-площадки из Нигерии в ЮАР — местным клиентам Microsoft придётся перенаправлять трафик в другие облачные регионы. После того, как кабели починят, площадка в Нигерии вернётся к нормальной работе. Наконец, Microsoft пользуется услугами брокера для аренды необходимой пропускной способности, который и решает, какие сервисы будут получать ресурсы в приоритетном порядке. В феврале 2024 года Microsoft анонсировала планы строительства нового кампуса ЦОД в Центурионе (Южная Африка). Компания стала первым облачным провайдером, зашедшим в страну, ещё в 2019 году она открыла два региона Azure в Йоханнесбурге и Кейптауне. Впрочем, в 2021 году облако в последнем исключили из перечня активных, переклассифицировав в «регион резервного доступа».
07.04.2024 [13:22], Руслан Авдеев
Проблемы с питанием чаще всего становятся причиной сбоев ЦОД, но избавиться от них не позволяет человеческий факторЧастота и серьёзность сбоев в ЦОД постепенно снижается относительно общей ёмкости объектов. Тем не менее, сообщает The Register, нарушения работы могут очень дорого обойтись операторам и их клиентам, а проблемы с электропитанием ведут к особенно серьёзным последствиям. Ёмкость дата-центров постоянно увеличивается, так что общее количество инцидентов тоже растёт, но по данным Uptime Institute, частота и тяжесть происшествий увеличивается относительно медленными темпами. И хотя их стало больше в абсолютном значении, темпы прироста заметно упали в последние годы. На то имеется ряд причин, включая тот факт, что многие организации стали интенсивно вкладываться в обеспечение надёжности работы оборудования. Среди других причин называются переход клиентов в облака и внедрение новых технологий для соответствия требованиям регуляторов. Однако Uptime Institute предупреждает, что данные о перебоях могут оказаться не вполне точными, потому что операторы зачастую не желают раскрывать информацию об инцидентах из-за возможного репутационного ущерба, так что сведения приходится собирать из открытых источников. В докладе Annual Outage Analysis 2024 констатируется, что 55 % опрошенных представителей операторов подтвердили, что в последние три года в их ЦОД были перебои. С другой стороны, годом ранее речь шла о 60 %, а в 2021 году — о 69 %. В то же время только 10 % сбоев за последний год оценили как «серьёзные» или «тяжёлые», тогда как двумя годами ранее таковых было на 14 п.п. больше. 54 % респондентов отметили, что самые значимые происшествия в их компаниях обошлись более чем $100 тыс., а 16 % — более $1 млн. Главной причиной называлась проблема с системой распределения энергии на местах, в докладе эта тема отмечается в 52 % инцидентов. Исследователи говорят, что переход на более «динамичные» электросети с возобновляемыми источниками энергии сделал сети питания менее надёжными. При этом в ряде случаев ИБП/генераторы не смогли корректно отреагировать на отказ сети. Например, ровно это вызвало перебои с сервисами Microsoft Azure в Европе в 2023 году. Вторая из ключевых причин сбоев — поломка или недостаточная производительность охлаждающего оборудования. Эксперты отметили, что количество проблем со сторонними сервисами выросло с 2020 года вдвое — на них приходится порядка 10 % сбоев в 2023 году. Это связано с ростром популярности облачных сервисов, в том числе SaaS, услуг хостинга и колокации. Во многих случаях играют роль человеческие ошибки — на них приходится от ⅔ до ⅘ всех инцидентов. Виной некорректное соблюдение процедур по обслуживанию оборудования или некорректность самих процедур. Например, в прошлом году на Нью-йоркской фондовой бирже (NYSE) сотрудник не смог корректно восстановить работу систем после сбоя во вспомогательном ЦОД, что привело к неверному ценообразованию на следующий день. Предполагается, что количество сбоев можно будет уменьшить благодаря более интенсивным тренировкам персонала и аудиту вероятных слабых мест. По данным Uptime Institute, каждый год случается 10–20 крупных отказов оборудования ЦОД в мире, что ведёт к серьёзным финансовым потерям и перебоям в обслуживании клиентов, а во многих случаях и к репутационным издержкам. В любом случае недавно в Uptime Institute сообщали, что в ближайшие годы затраты на строительство и обслуживание дата-центров будут только расти. |
|