Материалы по тегу: сбой
08.11.2023 [17:16], Руслан Авдеев
Перегрев ЦОД Equinix в Сингапуре привёл к срыву 2,5 млн банковских транзакцийТехнические проблемы, возникшие в сингапурском дата-центре Equinix в середине минувшего октября из-за перегрева, привели к серьёзным проблемам в банковской сфере. Как сообщает The Register со ссылкой на Валютное управление Сингапура (MAS), проблемы с системой охлаждения ЦОД привели к остановке 2,5 млн банковских операций. Проблема затронула DBS и Citibank, неприятности у которых начались днём 14 октября 2023 года — в результате клиенты частично утратили доступ к банковским услугам приблизительно на два дня, лишившись возможности осуществлять платежи. По данным властей в результате роста температуры в ЦОД выше допустимого уровня из-за нарушения работы системы охлаждения зарегистрировано 810 тыс. неудачных попыток доступа к двум банковским платформам, понадеявшихся на Equinix, а 2,5 млн онлайн-платежей и операций в банкоматах так и не были завершены. Сам оператор ЦОД винит подрядчика, поскольку его сотрудник якобы «неправильно» отправил сигнал на закрытие клапанов буферных резервуаров с холодной водой в ходе обновления инфраструктуры. Хотя банки немедленно приняли меры для возвращения работоспособности после инцидента, полностью восстановить системы с использованием резервных ЦОД сразу не удалось. DBS — из-за неправильной конфигурации сети, а Citibank из-за проблем с сетевым подключением. В результате оба банка не сумели уложиться в нормативы MAS, требующие, чтобы отключение критически важных систем, влияющих на банковские операции, не превышало 4 часов в год. Управление ввело ряд довольно жёстких наказаний для провинившихся банков сроком на полгода. По мнению экспертов, удивительно не только то, что система охлаждения не сработала, но и то, что банки не смогли своевременно отреагировать на сбой, введя в действие резервные мощности. Считается, что, как часто бывает, инцидент произошёл благодаря стечению неблагоприятных обстоятельств, поскольку на активацию резервной системы в норме уходят секунды или минуты. При этом MAS не контролирует деятельность провайдеров вроде Equinix.
08.11.2023 [16:35], Руслан Авдеев
Австралийский оператор Optus оставил без связи почти полстраныПринадлежащий сингапурской компании Singtel австралийский телеком-оператор Optus с 04:00 среды (12:00 по московскому времени) страдает от масштабного сбоя, затронувшего информационную инфраструктуру по всей стране. По данным The Register, без телефонной связи и интернета остались миллионы австралийцев — компания является там вторым по величине национальным оператором. Граждане и организации понесли ущерб не только от отсутствия связи — временно перестали работать некоторые поезда, а также другие виды транспорта, включая такси или каршеринг. Также перестали функционировать платёжные терминалы. При этом наличность сегодня имеют не так много людей — после пандемии COVID-19 переход на безналичные расчёты привёл к тому, что уже в 2022 году в Австралии на наличность приходилось немногим более 10 % платежей. ![]() Источник изображения: Joey Csunyo/unsplash.com На этом неприятности австралийцев не закончились. Пострадали наземные линии связи и информационная инфраструктура критически важных объектов вроде больниц, пожарных служб и др. В Optus сообщили, что для вызова экстренных служб необходимо пользоваться мобильной связью, поскольку других операторов страны сбой не коснулся. По данным сервиса Netblocks, интернет-сервисы Optus частично восстановились на восьмой час с момента сбоя, но мобильная сеть оставалась нефункциональной. После этого сообщалось о начале постепенного восстановления всех сервисов, но на полное возобновление работы, вероятно, уйдут часы. Представитель Optus заявил журналистам, что главная причина всё ещё выясняется, но данных о возможной кибератаке пока нет. По некоторым сведениям, сбой могло вызвать некорректное обновление ПО, но точные данные отсутствуют. Всего Optus насчитывает 10,2 млн клиентов, т.е. около 40 % населения Австралии. В прошлом году Optus тоже «отличилась» — после кибератаки в Сеть утекли данные её пользователей, сведений оказалось достаточно для злоумышленников, чтобы открывать даже банковские аккаунты от их имени. Местные чиновники раскритиковали работу Optus, в частности заявив, что правительство Южной Австралии уже рассматривает переключение критически важных сервисов на других провайдеров. В этом месяце пострадали от отключения интернета и клиенты крупных банков в Сингапуре — перегрев оборудования и отказ резервных систем привёл к срыву 2,5 млн банковских транзакций, а власти призвали население и бизнесы позаботиться об альтернативных средствах платежей на случай подобных происшествий.
27.10.2023 [17:50], Руслан Авдеев
Пожар в IT-хабе столицы Бангладеша оставил десятки миллионов жителей без СетиВ результате начавшегося в четверг вечером пожара в 14-этажной башне Khawaja Tower в Дакке (Бангладеш) погибло минимум три человека. В здании располагались международные интернет-шлюзы (IIG), дата-центры и точки обмена трафиком (ICX), которые пострадали от пожара. Как сообщает Dhaka Tribune, из-за этого без стабильной связи остались 5 млн пользователей кабельного интернета, а у 23 млн абонентов сотовой связи наблюдаются проблемы с передачей данных и звонками. В результате возгорания проблемы со стационарным интернет-доступом возникли у 5 из 12,5 млн пользователей. Многие полностью потеряли доступ в Сеть, а у тех, у кого он остался, заметно упала скорость соединения. Проблема коснулась и пользователей мобильного интернета: из 119,79 млн пользователей около 24 млн не могут выйти в Сеть, а некоторые лишились и обычных телефонных звонков. Если в норме страна использует полосу порядка 5 Тбит/с, то с отключением многих IIG пропускная способность упала до 1,2 Тбит/с. ![]() Источник изображения: Bangladesh Fire Service and Civil Defence Комментируя ситуацию, представитель организации ISPAB, представляющей интернет-провайдеров страны, заявил, что ситуация под контролем (пожар полностью потушили сегодня к утру), но доступ операторов в помещения пока ограничен. Уже известно, что из двух расположенных в здании ЦОД один (NRB) пострадал от пожара, а состояние второго (Dhaka Cola) неизвестно. Власти подтверждают, что 9–10 из имевшихся в Khawaja Tower шлюзов не функционируют, при этом каждый обеспечивает транзит данных 50–70 интернет-провайдеров. Всего потеряли возможность предоставлять услуги около 500–700 провайдеров. По данным представителя IIG Forum, многие провайдеры, включая Level Three, Max Hub, Amra Networks, Earthnet, Vargo и Windstream пострадали от пожара и сейчас переключаются на резервные IIG. При этом часть из них обеспечивают подключения мобильным операторам — если некоторые полностью прекратили работу, то другие почти или совсем не пострадали. Впрочем, проблему связности это не решает, поскольку не все абоненты могут полноценно осуществлять даже голосовые звонки. Мобильные операторы совместно с операторами ICX-узлов сейчас формируют новую инфраструктуру в другом, безопасном месте. По мнению экспертов, работоспособность быстро восстановить не получится, поскольку имевшееся оборудование пострадало, а новое оперативно не купить из-за дефицита на рынке. Впрочем, по степени влияния инцидент в Дакке пока «проигрывает» самому масштабному на текущий момент сбою ЦОД в Южной Корее, который тоже возник из-за пожара. Как сообщает Datacenter Dynamics, руководство пожарных доложило об отсутствии в здании плана противопожарной безопасности. Точная причина возгорания пока не называется. С огнём, помимо пожарной службы, помогали бороться и другие государственные ведомства — от военных до полиции. Впрочем, это не единичный случай. Только весной зарегистрированы крупные возгорания ЦОД в США, Франции, Нигерии, а о более мелких инцидентах информация иногда не поступает вовсе.
15.10.2023 [23:05], Владимир Мироненко
Сбой в сингапурском ЦОД Equinix повлёк за собой остановку банковских сервисов в стране и проблемы с доступом к сервисам Meta✴ за её пределами [Обновлено]В минувшую субботу в дата-центре Equinix в Сингапуре произошёл сбой, повлекший за собой остановку банковских сервисов по всей стране, сообщил ресурс Data Center Dynamics. В настоящее время ведётся расследование «технической проблемы», вызвавшей повышение температуры в ЦОД, сообщили в Equinix. Сообщается, что из-за сбоя в ЦОД компании были отключены сервисы банков DBS и Citibank в Сингапуре. Также проблемы наблюдались в работе других сервисов на Филиппинах, в Гонконге, Индии, Южной Африке, Камбодже, Индонезии, Шри-Ланке, ОАЭ и на Мальдивах, где многие пользователи не смогли получить доступ к своим аккаунтам в Facebook✴, Instagram✴ и Whatsapp. ![]() Источник изображения: Equinix/Data Center Dynamics В валютном управлении Сингапура (MAS) сообщили о том, что им известно о сбое, в связи с чем проводится расследование, а к Equinix применены ограничительные меры. Ранее подобные ограничения были применены к Equinix в феврале 2022 года в связи с происшедшим тогда сбоем. «Отключения, подобные инциденту 14 октября, показывают, насколько важны ЦОД для нашей повседневной жизни, и поэтому организациям необходимо постоянно анализировать отдельные точки сбоев и принимать соответствующие меры для снижения этих рисков», — сообщил Эдвард ван Леент (Edward van Leent) председатель сингапурской компании Enterprise Products Integration (EPI). Количество сбоев ЦОД с годами не уменьшается. По данным Uptime Institute, основанным на анализе сбоев ЦОД в 2023 году, более двух третей всех сбоев обходятся более чем в $100 тыс., в том числе почти 25 % сбоев наносят убытки более чем в $1 млн. Патрик Чан (Patrick Chan), вице-президент Uptime Institute по азиатскому региону указал на важность проведения сертификации ЦОД с целью соблюдения стандартов и снижения рисков сбоев. UPD 24.10.2023: Equinix обвинила в сбое стороннего подрядчика, который подал сигнал на закрытие вентилей ёмкостей с теплоносителем во время запланированного обновления инфраструктуры, в результате чего температура в некоторых машинных залах поднялась, что и привело к проблемам у клиентов компании. Кроме того, валютное управление Сингапура предписало банкам DBS и Citibank провести тщательное расследование, почему их резервные ЦОД не смогли вовремя принять нагрузку на себя.
04.09.2023 [19:24], Руслан Авдеев
Нехватка рук и плохая автоматизация: Microsoft отчиталась о сбое в сиднейском ЦОДПроизошедший 30 августа сбой в работе австралийского дата-центра привёл к проблемам в работе с сервисами Azure, API, базами данных, а также облачным ПО. Пользователи более суток не имели доступа к Azure, сервисам Microsoft 365 и Power Platform. Как сообщает Network World, в Microsoft обвиняют в произошедшем недостаток персонала в ЦОД и неисправную систему автоматики. По данным экспертов компании, после падения напряжения в сети на юго-востоке страны отключилась часть охлаждающих систем в одном из ЦОД. Поскольку охлаждение не работало должным образом, рост температуры в машинных залах привёл к автоматическому отключению некоторого оборудования для сохранения инфраструктуры и данных. При этом в компании подчеркнули, что системы охлаждения можно было бы заново включить вручную, окажись для этого достаточно персонала в ЦОД. С учётом размеров кампуса и небольшого числа сотрудников ночной смены людей оказалось недостаточно для своевременного восстановления работоспособности. В компании подчеркнули, что временно увеличили команду с трёх до семи человек, пока не выяснили причины проблем и не приняли необходимые меры для их устранения. ![]() Источник изображения: Microsoft В Microsoft добавили, что компания работает над масштабными реформами, включая совершенствование системы автоматизации ЦОД для восстановления работоспособности в случае повторения инцидентов, в частности, связанных с перепадами напряжения. Поэтому ведётся оценка загруженности серверов, чтобы выяснить, какие именно системы охлаждения нужно «оживить» в первую очередь. В последние месяцы сбои в работе сервисов Microsoft уже случались, в первую очередь связанные с нарушением доступа к Microsoft 365. Например, в июле пострадали OneDrive для бизнеса и SharePoint Online, а месяцем ранее с проблемами на восемь часов столкнулись пользователи Outlook Web, Teams, OneDrive для бизнеса и SharePoint. А в начале года наблюдались глобальные сбои в работе сервисов компании.
31.08.2023 [12:37], Сергей Карасёв
Затраты Rackspace на устранение последствий кибератаки превысят $10 млнКомпания Rackspace Technology, провайдер облачных услуг, по сообщению ресурса Dark Reading, столкнулась со значительными затратами в связи со сбоем, который произошёл в конце 2022 года в результате атаки программы-вымогателя. Напомним, из-за хакерского вторжения компании Rackspace пришлось навсегда отключить свою службу Microsoft Exchange. Причиной масштабного сбоя послужил эксплойт для уязвимости «нулевого дня». С последствиями атаки Rackspace не могла справиться в течение нескольких недель. Впоследствии калифорнийская Cole & Van Note подала коллективный иск против Rackspace в связи с недоступностью облачных сервисов. Для расследования инцидента компании пришлось привлечь сторонних специалистов. ![]() Источник изображения: Rackspace Как теперь стало известно, расходы Rackspace на устранение последствий кибератаки составят приблизительно $10,8 млн. Говорится, что деньги пойдут в основном на оплату работы экспертов в области информационной безопасности, занимающихся расследованием инцидента, юридические и другие профессиональные услуги, а также на «дополнительные кадровые ресурсы», которые были задействованы для оказания поддержки клиентам. Кроме того, компенсацию от Rackspace требуют недовольные пользователи, которые не могли получить доступ к сервисам провайдера облачных услуг. Rackspace ожидает, что значительная часть затрат будет возмещена компаниями по киберстрахованию.
19.10.2022 [21:48], Сергей Карасёв
Пожар в южнокорейском дата-центре Kakao привёл к остановке 32 тыс. серверов, отказу в обслуживании 45 млн человек, падению акций и отставке топ-менеджера компанииИсполнительный содиректор южнокорейской интернет-компании Kakao Намкун Вон (Namkoong Whon) принял решение подать в отставку после массового сбоя в работе сервисов, спровоцированного пожаром в кампусе ЦОД SK C&C Data Center неподалёку от Сеула, принадлежащем SK Group. Возникшие проблемы вызвали недовольство как со стороны многочисленных пользователей, так и со стороны представителей бизнеса и власти. Пожар начался 15 октября 2022 года с возгорания в аккумуляторной в одном из зданий ЦОД. В результате была нарушена работа мессенджера KakaoTalk, аудитория которого составляет 43–47 млн пользователей в Южной Корее (при населении всей страны в почти 52 млн человек). Кроме того, возникли сбои в работе платёжной системы KakaoPay, почтовой службы, такси и других сервисов компании. Не был затронут только сервис Kakao Bank, который размещался в другом дата-центре. По состоянию на 17 октября работоспособность большинства функций KakaoTalk была восстановлена, однако доступность ряда служб всё же оставалась ограниченной. ![]() Источник изображения: Yonhap Инцидентом лично заинтересовался президент страны, а стоимость акций Kakao при этом рухнула на 9,5 % — до минимального значения с мая 2020 года. Нарушение работы KakaoTalk негативно сказалось на работе сотен предприятий малого бизнеса, использующих названный мессенджер. Kakao уже сообщила о намерении выплатить компенсации и выяснить причины медленного восстановления работы своих служб. Кроме того, Kakao намерена вложить $325 млн в открытие в 2023 году собственного ЦОД, а в 2024-м будет запущен второй дата-центр. Любопытно, что в том же кампусе находился и дата-центр Naver, ещё одного южнокорейского IT-гиганта, на работу которого инцидент оказал намного меньшее влияние. Основная претензия к Kakao заключается в том, что у компании не были разработаны планы поведения в экстренных ситуациях. В частности, компания оказалась не готова к тому, что ЦОД будет быстро обесточен после начала пожара. При этом, вероятно, это самый крупный инцидент в ЦОД в мире, поскольку речь идёт об остановке сразу 32 тыс. серверов. Нужно отметить, что в течение последнего времени пожары охватили сразу несколько крупных ЦОД. В частности, в марте прошлого года пожар уничтожил дата-центр французской компании OVHcloud в Страсбурге. В результате этого ЧП оказались недоступны в общей сложности 3,6 млн веб-сайтов, в том числе ресурсы ряда правительственных организаций, банков, интернет-магазинов и пр. А пожар, случившийся в ЦОД иранской Telecommunication Infrastructure Company (TIC), практически оставил без доступа в интернет всю страну. |
|