Материалы по тегу: сбой
02.03.2023 [00:18], Руслан Авдеев
Причиной сбоя Oracle NetSuite в США стал взрыв аккумуляторов в ЦОД CyxteraВзрыв и задымление в дата-центре компании Cyxtera в массачусетском кампусе, вероятно, были вызваны неизвестным сбоем электросистемы, результатом которого стал инцидент в аккумуляторном отсеке. Как сообщает DataCenter Dynamics, экспертам до сих пор не удалось установить точную причину инцидента, который привёл к отключению сервисов Oracle NetSuite в США. Хотя одной из строений на территории кампуса было повреждено, серьёзные жертвы и разрушения не зарегистрированы. Кампус BOS1 мощностью 16 МВт включает три здания в пригороде Бостона. Инцидент произошёл 14 февраля, но по данным местного пожарного ведомства, точная причина происшествия пока «не определена». Известно, что пожарная команда прибыла на место происшествия в 11:34 по местному времени, через шесть минут после сигнала тревоги, а уже к 14:30 «инцидент был в целом улажен». Пожарные эвакуировали сотрудников, обесточили помещение и занялись удалением из помещений угарного газа и цианида водорода. На момент прибытия экстренной службы электроснабжение и резервное питание всё ещё были активны, поэтому дополнительно пришлось обесточить всё здание. Выяснилось, что аварийный выключатель сработал на одной из трёх линий электроснабжения. Возможно, это привело к включению резервного источника и последующему взрыву с дуговым разрядом, в свою очередь, ставшими причиной задымления и повреждений. Взрыв разрушил один из аккумуляторных отсеков и повредил близлежащие. В это же время в том же помещении проводились работы на соседней энерголинии, но они, похоже, никак не связаны с происшествием. К счастью, электрики ушли на обед пораньше, не застав взрыв. Единственным пострадавшим оказался охранник, совершавший обход. Его доставили в больницу, в первую очередь, чтобы убедиться в отсутствии отравления продуктами горения. На данный момент считается, что источник возгорания не представляется возможным установить. Вероятнее всего, инцидент был вызван неустановленным «электрическим событием» на линии B, что привело к отключению аварийного выключателя. После того как автоматически заработал аварийный генератор, произошло замыкание с возгоранием. Пока расследование прекращено, но его могут возобновить, если появятся новые факты. В целом ситуация оказалась намного проще, чем, например, страсбургский пожар в марте 2021 года, в результате которого один ЦОД OVH Cloud сгорел полностью, а второй был серьёзно повреждён. Там возгорание тоже началось с энергоотсеков, но с гораздо более серьёзными последствиями. В прошлом году, как считается, Li-Ion батареи в южнокорейском ЦОД Kakao привели к пожару, повлекшему за собой самый масштабный во всём мире сбой дата-центра. Как отмечает Uptime Institute, число сбоев IT-систем с годами не уменьшается, а главной их причиной стали перебои с электропитанием, в том числе из-за участивших пожаров.
30.01.2023 [23:44], Владимир Мироненко
Минус £1,4 млн, 100 приёмов врачей и один орган для трансплантации: NHS подсчитала потери двух лондонских больниц из-за сбоя ЦОДОтключение доступа к IT-сервисам в двух лондонских больницах в связи со сбоем в работе ЦОД из-за аномальной жары в июле прошлого года принесло Национальной службе здравоохранения Великобритании (NHS) убытки в размере £1,4 млн, сообщил ресурс DatacenterDynamics со ссылкой на отчёт ведомства. Два дата-центра, которые обеспечивали поддержку компьютерных систем больниц фонда Guy's and St Thomas' NHS Foundation Trust, столкнулись с проблемами в функционировании оборудования из-за рекордной температуры в более чем +40 °C. О сбоях в системах охлаждения ЦОД и массовых отключениях сервисов тогда сообщили Google и Oracle. А из-за перегрева оборудования в некоторых ЦОД поливали водой из шлангов внешние модули систем кондиционирования на крыше, чтобы хоть как-то их охладить. ![]() Источник изображения: Pixabay В результате сбоя врачи были вынуждены перейти на бумажные медицинские карты, а более 100 приёмов пришлось отложить или отменить. Также не удалось получить орган для трансплантации одному из пациентов больницы. В отчёте NHS сообщается, что возникшие проблемы вызвали «усталость, стресс, а также оказали негативное влияние на моральный дух» персонала. На полное восстановление сервисов потребовалось шесть недель. NHS отметила, что этого можно было бы избежать, если бы дата-центры были должным образом подготовлены к подобной ситуации. В частности, дефектный разъем шланга стал причиной задержки в запуске системы охлаждения одного из ЦОД, в то время как в другом были обнаружены проблемы с водоснабжением.
09.01.2023 [17:39], Сергей Карасёв
Промедление смерти равно: масштабный сбой Rackspace Hosted Exchange произошёл из-за задержки с установкой патчей, но возобновлять работу сервиса компания не намеренаКомпания Rackspace Technology, провайдер облачных услуг, раскрыла причины масштабного инцидента, из-за которого пришлось отключить службу Microsoft Exchange. Как сообщает ресурс Datacenter Dynamics, причиной сбоя послужил эксплойт для уязвимости «нулевого дня». Хакерская атака была организована в начале декабря 2022 года. Компания заявила, что причиной послужило проникновение в IT-инфраструктуру программы-вымогателя. Справиться с последствиями инцидента Rackspace не может несколько недель, а службу Microsoft Exchange пришлось отключить. Калифорнийская Cole & Van Note уже подала коллективный иск против Rackspace в связи с недоступностью облачных сервисов. ![]() Источник изображения: Rackspace Как теперь стало известно, для проведения атаки злоумышленник использовал ранее неизвестный эксплойт для уязвимости, описанной в бюллетене Microsoft CVE-2022-41080. Изначально говорилось, что брешь позволяет злоумышленнику повысить привилегии в атакуемой системе. Но затем выяснилось, что дыра может использоваться для удалённого выполнения произвольного кода (CVE-2022-41082) через Outlook Web Access (OWA). Атака было проведена с использованием зловредов семейства PLAY (PlayCrypt). Аналогичные атаки проводятся с лета 2022 года, нацелены они на организации в Латинской Америке, Европе и Индии. Rackspace опровергла предположения о том, что первопричиной инцидента стал эксплойт ProxyNotShell. Сторонний эксперт сообщил Dark Reading, что Rackspace воздерживалась от применения патча для ProxyNotShell из-за опасений по поводу возможных «ошибок аутентификации», которые, предположительно, могли вывести из строя её службы Exchange. В результате, это промедление обернулось масштабным сбоем, хотя компания в итоге и реализовала рекомендованные Microsoft меры безопасности. Что касается сервисов Hosted Exchange, то возобновлять их работу Rackspace не планирует. Компания всё ещё работает над восстановлением пользовательских данных. Говорится, что из почти 30 тыс. пользователей Hosted Exchange злоумышленник получил доступ к PST-файлам 27 клиентов. Для более половины пострадавших данные восстановлены частично или полностью, но возможностью их загрузки мало кто воспользовался. «Это указывает нам на то, что многие из наших клиентов имеют локальные резервные копии или архивы, а поэтому не нуждаются в восстановленной информации», — подчёркивается в сообщении.
07.01.2023 [22:27], Владимир Мироненко
Смайлики и немного денег: Kakao предложила компенсацию пострадавшим от самого масштабного в мире сбоя ЦОДЮжнокорейская интернет-компания Kakao анонсировала план компенсации пользователям её мессенджера KakaoTalk, пострадавшим из-за пожара в ЦОД SK C&C в октябре прошлого года. План предусматривает раздачу трёх пакетов смайлов в качестве общей компенсации всем пользователям мессенджера KakaoTalk. Следует отметить, что из трёх «подаренных» наборов эмодзи лишь один предоставлен в полностью бесплатное пользование, а срок бесплатного пользования остальных истекает через 90 дней. Компания также предложила 3 млн ваучеров на бесплатный доступ в течение одного месяца к своей службе резервного копирования данных Talk Drawer Plus. После окончания бесплатного периода пользователи будут автоматически подписаны на платную версию службы. ![]() Изображение: KakaoTalk Кроме того, предпринимателям, сообщившим об убытках из-за сбоя в размере менее 300 тыс. вон ($240), будет выплачена компенсация ущерба в размере 30 тыс. вон ($24), а если заявленный убыток составил менее 500 тыс. вон ($399,2), выплата составит 50 тыс. вон ($39,92). Те, кто сообщил о потере доходов из-за сбоя выше 500 тыс. вон, могут получить дополнительную компенсацию после того, как будет проведена проверка их заявлений. Также компания предоставит два купона для платформы Kakao Makers. Пожар привёл к остановке 32 тыс. серверов, прекратили работу ключевые сервисы Kakao, в том числе KakaoTalk с аудиторией в среднем 45 млн человек (население всей страны — почти 52 млн человек), произошли сбои в работе платёжной системы KakaoPay, почтовой службы, такси и других сервисов компании. На полное восстановление работоспособности всех сервисов потребовалось пять дней. На текущий момент данный инцидент является крупнейшим в мире ЦОД. Предложенные Kakao варианты компенсации были раскритикованы пользователями.
30.12.2022 [19:27], Руслан Авдеев
Глава Alibaba взял на себя прямое управление Alibaba Cloud после самого масштабного сбоя облака за последние 10 летПосле масштабного сбоя в работе сервисов Alibaba Cloud Джеффу Чжану Цзяньфэню (Jeff Zhang Jianfeng) пришлось покинуть пост руководителя облачного сервиса. Как сообщает South China Morning Post, управление взял на себя сам генеральный директор Alibaba Group Holding Дэниэл Чжан Юн (Daniel Zhang Yong). В результате сбоев в Гонконге и Макао почти 30 часов отсутствовал доступ к важнейшим облачным ресурсам. Это самый масштабный сбой облака Alibaba за последние 10 лет. На сегодня Alibaba Cloud является крупнейшим и, возможно, самым надёжным облачным сервисом в Китае, услугами которого пользуются многие американские и европейские компании, имеющие здесь представительства. Хотя на местный рынок не так давно вышла AWS, возможности компаний всё ещё несопоставимы. Дэниэл Чжан Юн, занимающий пост председателя Alibaba, теперь занял и пост исполняющего обязанности президента Alibaba Cloud Intelligence и корпоративной коммуникационной платформы DingTalk. В письме сотрудникам он подчеркнул, что Alibaba Cloud не может позволить себе потерять доверие клиентов. Решение лично возглавить управление облачным сервисом только подчёркивает важность сервиса для всего холдинга, поскольку Alibaba Cloud предоставляет услуги не только клиентам, но и площадкам самой Alibaba вроде Taobao и Tmall, платёжным и логистическим системам и т.д. При этом облачный сегмент становится всё важнее для Alibaba, поскольку площадки компании для ведения электронной коммерции в последнее время столкнулись с усиливающейся конкуренцией со стороны других игроков. Хотя сервис под руководством Джеффа Чжана Цзяньфэня потерпел очевидную неудачу, он остаётся важной фигурой для бизнеса Alibaba. В частности, за ним сохраняется пост главы научно-исследовательского подразделения Damo Academy, также он отвечает за руководство разработкой чипов в подразделении T-Head, на которые уже к 2025 году Alibaba намерена перевести пятую часть своих мощностей, и за инициативы, связанные с Интернетом вещей. Чжоу Цзиньжень (Zhou Jingren), занимавший пост заместителя директора Damo Academy, стал техническим директором Alibaba Cloud, ещё одна важная перестановка — Ву Цзэминь (Wu Zeming) взял на себя роль технического директора Alibaba, не теряя прочих должностей в компании. Все новые назначения вступили в силу немедленно после их оглашения. При этом бывший технический директор Alibaba Чэн Ли (Cheng Li) — один из ветеранов компании, пришедший в Alipay в 2005 году и поднявшийся с самых низов в местной иерархии — будет ограничен только ролью «советника».
18.12.2022 [01:15], Сергей Карасёв
Rackspace не смогла за две недели устранить проблемы в работе Hosted ExchangeКомпания Rackspace Technology, провайдер облачных услуг, по-прежнему не может устранить последствия серьёзного сбоя, из-за которого пришлось отключить службу Microsoft Exchange. Инцидент произошёл около двух недель назад из-за атаки программы-вымогателя. Ранее сообщалось, что атака затронула только Exchange, но компания ввела дополнительные меры защиты для других сервисов. Впоследствии калифорнийская Cole & Van Note подала коллективный иск против Rackspace в связи с недоступностью облачных сервисов. Для расследования инцидента компания обратилась за помощью к специалистам CrowdStrike. Однако о сроках полного восстановления работоспособности служб ничего не известно. ![]() Источник изображения: Rackspace Восстановительные работы продолжаются и по сей день. В Rackspace отмечают, что примерно две трети клиентов переведены на платформу Microsoft 365. Тем не менее, пользователи продолжают жаловаться в социальных сетях на часы ожидания при обращениях в службу работы с клиентами, плохую поддержку и отсутствие информации о том, когда возобновится работа сервисов. «Мы понимаем, насколько важно восстановление данных для наших заказчиков. В случае атак программ-вымогателей усилия по возобновлению работы занимают значительное время как из-за характера нападения, так и из-за необходимости соблюдения дополнительных протоколов безопасности. Мы будем продолжать держать вас в курсе событий», — заявляет Rackspace.
09.12.2022 [15:29], Сергей Карасёв
Против Rackspace подан коллективный иск в связи с недельной недоступностью облачного сервиса Microsoft ExchangeКалифорнийская Cole & Van Note сообщила о подаче коллективного иска против компании Rackspace Technology, провайдера облачных услуг. Причиной для судебного разбирательства стал масштабный сбой, из-за которого пришлось отключить службу Hosted Exchange. Сервисы Exchange подверглись атаке программы-вымогателя. В компании не раскрывают масштаб возможной утечки данных, отмечая, что расследование инцидента находится на начальной стадии. В результате атаки и отключения сервисов рыночная капитализация Rackspace на текущей неделе упала с $1 млрд до $670 млн. Для сравнения: в прошлом году компания была оценена более чем в $5 млрд. Сейчас Rackspace устраняет последствия инцидента и пытается перевести клиентов на Microsoft 365. Пока не ясно, собирается ли компания платить выкуп злоумышленникам. Сведений о сроках восстановления работоспособности облачных служб также нет. ![]() Источник изображения: Rackspace Technology В поданном коллективном иске Cole & Van Note требует от Rackspace денежную компенсацию за нанесённый клиентам ущерб в связи с недоступностью сервисов. Кроме того, инициаторы разбирательства намерены получить гарантии того, что Rackspace внедрит необходимые протоколы безопасности, в частности, средства резервного копирования информации.
06.12.2022 [19:40], Сергей Карасёв
Rackspace на несколько дней лишила тысячи клиентов доступа к облачному сервису Microsoft ExchangeКомпания Rackspace Technology, провайдер облачных услуг, пережила серьёзный сбой, из-за которого пришлось отключить службу Microsoft Exchange. Сервис был недоступен для заказчиков в течение нескольких последних дней, в том числе на минувших выходных. В Rackspace не раскрывают, что именно послужило причиной масштабного сбоя. Отмечается лишь, что это связано с «инцидентом безопасности». Однако есть сведения, что сервисы компании подверглись атаке вредоносной программы — вероятно, вымогателя. «Мы столкнулись со значительным сбоем в нашей среде Hosted Exchange. Пришлось заблаговременно отключить службу, чтобы избежать дальнейших проблем», — говорится в официальном заявлении Rackspace. Известно, что многие клиенты компании не могли связаться со службой поддержки в течение многих часов. Rackspace отмечает, что на протяжении последних дней она восстановила службы электронной почты для тысяч клиентов сервисов на базе Microsoft 365. В настоящее время восстановительные работы продолжаются. В мае нынешнего года сообщалось, что Rackspace Technology рассматривает возможность продажи всего бизнеса или его части. Компания была основана в 1998 году в качестве хостинг-провайдера. В 2006-м она представила одну из первых публичных платформ PaaS. Позднее Rackspace объявила о намерении сосредоточить усилия на развитии облачных и мультиоблачных технологий, оптимизации и безопасности. UPD: Rackspace подтвердила, что причиной сбоя стала атака зловреда, и привлекла к расследованию сторонних экспертов в области информационной безопасности. Предполагается, что атака затронула только Exchange, но компания ввела дополнительные меры защиты для других сервисов. Пока что она не готова назвать сроки полного восстановления всей функциональности сервисов Exchange.
21.10.2022 [12:39], Сергей Карасёв
Причиной самого масштабного в мире сбоя ЦОД Kakao могли стать Li-Ion батареи, которые и привели к пожаруЮжнокорейская интернет-компания Kakao назвала причину пожара в кампусе ЦОД SK C&C Data Center неподалёку от Сеула: утверждается, что возгорание спровоцировали литий-ионные аккумуляторы производства дочерней компании SK Group, которой и принадлежит дата-центр. Напомним, пожар начался 15 октября 2022 года. В результате, произошёл массовый сбой в работе мессенджера KakaoTalk, которым пользуются около 90 % корейцев. Кроме того, была нарушена работа других сервисов Kakao, включая платёжную платформу KakaoPay, почтовую службу, такси и пр. На восстановление доступности систем ушло много времени, в том числе потому, что у компании не были разработаны планы поведения в экстренных ситуациях. На текущий момент это, похоже, самый масштабный инцидент такого рода в мире ЦОД, поскольку в результате пожара были одновременно остановлены 32 тыс. серверов. ![]() Источник изображения: Yonhap Kakao заявляет, что возгорание возникло из-за перегрева литий-ионных аккумуляторов, изготовленных на предприятии SK On (входит в SK Group). Говорится, что система управления батареями (BMS) за несколько часов до возникновения пожара дважды выдавала предупреждения, и сотрудник службы технической поддержки два раза инспектировал аккумуляторную комнату в здании ЦОД. Однако SK Group претензии в свой адрес отрицает. Она утверждает, что никакие уведомления от BMS не поступали, а специалист помещение с аккумуляторными блоками не посещал. Полиция и пожарные службы ещё выясняют причины инцидента. Компания Kakao в результате возгорания понесла непосредственные убытки в размере $13,9 млн. Кроме того, предстоит урегулировать коллективные иски, поданные со стороны пользователей сервисов в связи со сбоями в их работе. Если будет установлено, что пожар произошёл по вине батарей SK On, компании SK всё же придётся взять на себя частичную компенсацию ущерба. Правительство Южной Кореи потребует объяснений от руководства Kakao и SK Group, а также интернет-группы Naver, которая тоже пострадала из-за возгорания. UPD: Между тем, как сообщается, корейская полиция провела обыски в офисах SK Group и пострадавшем от огня ЦОД. В ходе рейдов были изъяты документы, которые могут иметь отношение к пожару. Кроме того, в рамках расследования будут допрошены представители SK Group. Отмечается также, что ЦОД SK C&C Data Center в настоящее время функционирует без системы резервного питания. А поэтому в ближайшие три недели не исключены дальнейшие сбои в работе сервисов Kakao.
19.10.2022 [21:48], Сергей Карасёв
Пожар в южнокорейском дата-центре Kakao привёл к остановке 32 тыс. серверов, отказу в обслуживании 45 млн человек, падению акций и отставке топ-менеджера компанииИсполнительный содиректор южнокорейской интернет-компании Kakao Намкун Вон (Namkoong Whon) принял решение подать в отставку после массового сбоя в работе сервисов, спровоцированного пожаром в кампусе ЦОД SK C&C Data Center неподалёку от Сеула, принадлежащем SK Group. Возникшие проблемы вызвали недовольство как со стороны многочисленных пользователей, так и со стороны представителей бизнеса и власти. Пожар начался 15 октября 2022 года с возгорания в аккумуляторной в одном из зданий ЦОД. В результате была нарушена работа мессенджера KakaoTalk, аудитория которого составляет 43–47 млн пользователей в Южной Корее (при населении всей страны в почти 52 млн человек). Кроме того, возникли сбои в работе платёжной системы KakaoPay, почтовой службы, такси и других сервисов компании. Не был затронут только сервис Kakao Bank, который размещался в другом дата-центре. По состоянию на 17 октября работоспособность большинства функций KakaoTalk была восстановлена, однако доступность ряда служб всё же оставалась ограниченной. ![]() Источник изображения: Yonhap Инцидентом лично заинтересовался президент страны, а стоимость акций Kakao при этом рухнула на 9,5 % — до минимального значения с мая 2020 года. Нарушение работы KakaoTalk негативно сказалось на работе сотен предприятий малого бизнеса, использующих названный мессенджер. Kakao уже сообщила о намерении выплатить компенсации и выяснить причины медленного восстановления работы своих служб. Кроме того, Kakao намерена вложить $325 млн в открытие в 2023 году собственного ЦОД, а в 2024-м будет запущен второй дата-центр. Любопытно, что в том же кампусе находился и дата-центр Naver, ещё одного южнокорейского IT-гиганта, на работу которого инцидент оказал намного меньшее влияние. Основная претензия к Kakao заключается в том, что у компании не были разработаны планы поведения в экстренных ситуациях. В частности, компания оказалась не готова к тому, что ЦОД будет быстро обесточен после начала пожара. При этом, вероятно, это самый крупный инцидент в ЦОД в мире, поскольку речь идёт об остановке сразу 32 тыс. серверов. Нужно отметить, что в течение последнего времени пожары охватили сразу несколько крупных ЦОД. В частности, в марте прошлого года пожар уничтожил дата-центр французской компании OVHcloud в Страсбурге. В результате этого ЧП оказались недоступны в общей сложности 3,6 млн веб-сайтов, в том числе ресурсы ряда правительственных организаций, банков, интернет-магазинов и пр. А пожар, случившийся в ЦОД иранской Telecommunication Infrastructure Company (TIC), практически оставил без доступа в интернет всю страну. |
|