Материалы по тегу: сбой
15.10.2023 [23:05], Владимир Мироненко
Сбой в сингапурском ЦОД Equinix повлёк за собой остановку банковских сервисов в стране и проблемы с доступом к сервисам Meta✴ за её пределами [Обновлено]В минувшую субботу в дата-центре Equinix в Сингапуре произошёл сбой, повлекший за собой остановку банковских сервисов по всей стране, сообщил ресурс Data Center Dynamics. В настоящее время ведётся расследование «технической проблемы», вызвавшей повышение температуры в ЦОД, сообщили в Equinix. Сообщается, что из-за сбоя в ЦОД компании были отключены сервисы банков DBS и Citibank в Сингапуре. Также проблемы наблюдались в работе других сервисов на Филиппинах, в Гонконге, Индии, Южной Африке, Камбодже, Индонезии, Шри-Ланке, ОАЭ и на Мальдивах, где многие пользователи не смогли получить доступ к своим аккаунтам в Facebook✴, Instagram✴ и Whatsapp. В валютном управлении Сингапура (MAS) сообщили о том, что им известно о сбое, в связи с чем проводится расследование, а к Equinix применены ограничительные меры. Ранее подобные ограничения были применены к Equinix в феврале 2022 года в связи с происшедшим тогда сбоем. «Отключения, подобные инциденту 14 октября, показывают, насколько важны ЦОД для нашей повседневной жизни, и поэтому организациям необходимо постоянно анализировать отдельные точки сбоев и принимать соответствующие меры для снижения этих рисков», — сообщил Эдвард ван Леент (Edward van Leent) председатель сингапурской компании Enterprise Products Integration (EPI). Количество сбоев ЦОД с годами не уменьшается. По данным Uptime Institute, основанным на анализе сбоев ЦОД в 2023 году, более двух третей всех сбоев обходятся более чем в $100 тыс., в том числе почти 25 % сбоев наносят убытки более чем в $1 млн. Патрик Чан (Patrick Chan), вице-президент Uptime Institute по азиатскому региону указал на важность проведения сертификации ЦОД с целью соблюдения стандартов и снижения рисков сбоев. UPD 24.10.2023: Equinix обвинила в сбое стороннего подрядчика, который подал сигнал на закрытие вентилей ёмкостей с теплоносителем во время запланированного обновления инфраструктуры, в результате чего температура в некоторых машинных залах поднялась, что и привело к проблемам у клиентов компании. Кроме того, валютное управление Сингапура предписало банкам DBS и Citibank провести тщательное расследование, почему их резервные ЦОД не смогли вовремя принять нагрузку на себя.
04.09.2023 [19:24], Руслан Авдеев
Нехватка рук и плохая автоматизация: Microsoft отчиталась о сбое в сиднейском ЦОДПроизошедший 30 августа сбой в работе австралийского дата-центра привёл к проблемам в работе с сервисами Azure, API, базами данных, а также облачным ПО. Пользователи более суток не имели доступа к Azure, сервисам Microsoft 365 и Power Platform. Как сообщает Network World, в Microsoft обвиняют в произошедшем недостаток персонала в ЦОД и неисправную систему автоматики. По данным экспертов компании, после падения напряжения в сети на юго-востоке страны отключилась часть охлаждающих систем в одном из ЦОД. Поскольку охлаждение не работало должным образом, рост температуры в машинных залах привёл к автоматическому отключению некоторого оборудования для сохранения инфраструктуры и данных. При этом в компании подчеркнули, что системы охлаждения можно было бы заново включить вручную, окажись для этого достаточно персонала в ЦОД. С учётом размеров кампуса и небольшого числа сотрудников ночной смены людей оказалось недостаточно для своевременного восстановления работоспособности. В компании подчеркнули, что временно увеличили команду с трёх до семи человек, пока не выяснили причины проблем и не приняли необходимые меры для их устранения. В Microsoft добавили, что компания работает над масштабными реформами, включая совершенствование системы автоматизации ЦОД для восстановления работоспособности в случае повторения инцидентов, в частности, связанных с перепадами напряжения. Поэтому ведётся оценка загруженности серверов, чтобы выяснить, какие именно системы охлаждения нужно «оживить» в первую очередь. В последние месяцы сбои в работе сервисов Microsoft уже случались, в первую очередь связанные с нарушением доступа к Microsoft 365. Например, в июле пострадали OneDrive для бизнеса и SharePoint Online, а месяцем ранее с проблемами на восемь часов столкнулись пользователи Outlook Web, Teams, OneDrive для бизнеса и SharePoint. А в начале года наблюдались глобальные сбои в работе сервисов компании.
31.08.2023 [12:37], Сергей Карасёв
Затраты Rackspace на устранение последствий кибератаки превысят $10 млнКомпания Rackspace Technology, провайдер облачных услуг, по сообщению ресурса Dark Reading, столкнулась со значительными затратами в связи со сбоем, который произошёл в конце 2022 года в результате атаки программы-вымогателя. Напомним, из-за хакерского вторжения компании Rackspace пришлось навсегда отключить свою службу Microsoft Exchange. Причиной масштабного сбоя послужил эксплойт для уязвимости «нулевого дня». С последствиями атаки Rackspace не могла справиться в течение нескольких недель. Впоследствии калифорнийская Cole & Van Note подала коллективный иск против Rackspace в связи с недоступностью облачных сервисов. Для расследования инцидента компании пришлось привлечь сторонних специалистов. Как теперь стало известно, расходы Rackspace на устранение последствий кибератаки составят приблизительно $10,8 млн. Говорится, что деньги пойдут в основном на оплату работы экспертов в области информационной безопасности, занимающихся расследованием инцидента, юридические и другие профессиональные услуги, а также на «дополнительные кадровые ресурсы», которые были задействованы для оказания поддержки клиентам. Кроме того, компенсацию от Rackspace требуют недовольные пользователи, которые не могли получить доступ к сервисам провайдера облачных услуг. Rackspace ожидает, что значительная часть затрат будет возмещена компаниями по киберстрахованию.
21.06.2023 [15:09], Руслан Авдеев
Проблемы с поставками комплектующих привели к всплеску сбоев в работе ЦОД во всём миреХотя проблемы с поставками электронных компонентов в последнее время постепенно отходят на второй план, в некоторых секторах IT-индустрии они так и не решены до конца. Как сообщает Network World со ссылкой на ассоциацию профессионалов рынка ЦОД (AFCOM), 44 % опрошенных операторов дата-центров сталкиваются с перебоями или отключениями, вызванными дефицитом самых необходимых запасных частей и компонентов. Примечательно, что в 2021 году о подобных проблемах говорили только 25 % опрошенных, причём ситуация усугубляется стремлением многих операторов ЦОД расширять свой бизнес ускоренными темпами. Как сообщает AFCOM в докладе State of the Data Center 2023, 94 % опрошенных столкнулись с теми или иными проблемами при организации поставок для своих ЦОД, 59 % — с дефицитом основного оборудования вроде серверов и коммутаторов, 51 % — систем энергоснабжения, включая генераторы и ИБП, 34 % жалуются на нехватку систем безопасности, в том числе защищённых дверей и камер, а 35 % — на дефицит строительных материалов вроде бетона. Некоторые операторы сталкиваются с несколькими проблемами сразу. По мнению экспертов, в последнее время многие инвестиционные компании приобрели дата-центры и теперь пытаются нарастить их мощности настолько быстро, насколько возможно, что тоже усугубляет дефицит. Иногда доходит до того, что почти готовые ЦОД не могут ввести в эксплуатацию из-за одного компонента. Например, в некоторых случаях ИБП и генераторы доставляют 50 недель вместо привычных ранее 8-10, а на поставку чиллеров может уйти и 70 недель — почти полтора года. При этом сами операторы превращают ситуацию на рынке из плохой в катастрофическую, скупая комплектующие на всякий случай и скапливая запасы фактически ненужного оборудования на складах. Дефицит больше затронул гиперскейлеров и колокейшн-сервисы, чем корпоративных заказчиков с локальными ЦОД. Последние настроены эксплуатировать оборудование как можно дольше и чаще готовы неспешно ожидать поставок. Впрочем, действительно рекомендуется иметь некоторый запас необходимых запчастей на случай экстренных ситуаций. Эксперты рекомендуют искать поставщиков-партнёров, которые имеют чёткий план на случай перебоев с поставками по воздуху или железным дорогам. Не стоит отказываться и от рынка б/у оборудования — даже устаревшее на несколько поколений и несущее другие проблемы «железо» во многих случаях лучше, чем полное отсутствие оборудования. Этот рынок тем более стоит рассматривать потому, что гиперскейлеры довольно часто поставляют на него оборудование. Наконец, одним из важнейших советов является приобретение схожего оборудования у разных вендоров. Известно, что многие предпочитают приобретать железо одного производителя, но в ситуации, когда выбирать не из чего, особо разборчивым быть не приходится.
15.06.2023 [23:20], Руслан Авдеев
Арктический лёд порвал подводный кабель, вызвав проблем с интернет-доступом на АляскеНаселение Аляски пострадало от масштабных отключений широкополосного интернет-доступа. Как сообщает DataCenter Dynamics, и без того почти отрезанный от остального мира регион лишился стабильного доступа в Сеть из-за обрыва подводного оптоволоконного кабеля, предположительно пострадавшего от арктических льдов. Местным жителям пришлось временно переключиться на спутниковый интернет и радиодоступ. По данным местного провайдера Quintillion, обрыв произошёл примерно в 55 км от мыса Оликток из-за «движения льдов» — на ликвидацию последствий аварии может уйти несколько недель. Дрейфующие льдины занесло на мелководье, где они буквально вспахали дно, что разрушило местную экосистему и, похоже, кабельную инфраструктуру. Специальная команда экспертов занята диагностикой и решением проблемы. К месту обрыва направлено специализированное ремонтное судно. В Quintillion подчеркнули, что продолжают следить за местом обрыва, используя рефлектометр. Местные СМИ сообщают о проблемах с телефонной связью и платежами с помощью банковских карт. В Quintillion рассчитывают, что ВОЛС будет восстановлена настолько быстро, насколько это возможно, хотя о точных сроках говорить не приходится. Вряд ли связь будет налажена ранее, чем через 6–8 недель. Ранее сообщалось, что только за последние пять лет обрывы подводных ВОЛС случались порядка 20 раз, один из последних — в конце февраля вблизи Тайваня, когда кабели были перерезаны (предполагается, что случайно) китайскими рыболовными судами. Великобритания уже приобрела корабль для защиты подводных кабелей, причём в его функции входит не только контроль и ремонт коммуникаций, но и, вероятно, силовая защита в случае необходимости.
14.06.2023 [18:45], Руслан Авдеев
Облако AWS пережило кратковременный, но крупный сбой, затронувший тысячи клиентов и сервисы самой AmazonОблачный провайдер Amazon Web Services (AWS) допустил крупный сбой своих сервисов, результатом которого стали отказы в обслуживании многочисленных компаний 13 июня. Как сообщает Network World, в самой Amazon причиной сбоя, коснувшегося тысяч клиентов, называют неполадки в ключевом облачном регионе us-east-1 в Северной Вирджинии, в результате были затронуты как минимум 104 сервиса компании. По данным самой Amazon, проблемы сохранялись около четырёх часов и коснулись, в частности, AWS Management Console, Amazon SageMaker, AWS Glue, Amazon Connect, AWS Fargate и Amazon GuardDuty. Далее по цепочке пострадали зависимые сервисы, что привело к крупномасштабному сбою систем и самой AWS, и её клиентов. Основной причиной названа проблема с подсистемой, отвечающей за управление мощностями AWS Lambda. Как сообщает Reuters, этим и подобными решениями, согласно данным Datadog, пользуются более половины организаций, использующих облачные площадки. Как сообщили в AWS, клиенты пострадали как напрямую, например, из-за проблем с API Gateway, так и из-за сбоев в работе других сервисов AWS. В результате пострадали ресурсы и сервисы многих крупнейших компаний, включая The Verge, авиакомпанию Southwest Airlines и Транспортное управление Нью-Йорка. Некоторое время не работали даже сайт самой AWS, Amazon Music и Alexa. Примечательно, что в конце апреля начался второй раунд массовых увольнений в облачном подразделении компании, а в начале июня неожиданно ушёл в отставку глава отдела проектирования, строительства и эксплуатации дата-центров AWS. Сейчас, как утверждают в компании, работа всех сервисов AWS вернулась к норме, но на пике портал Downdetector регистрировал до 12 тыс. жалоб. В целом, проблема оказалась не такой острой, как, например, в 2017 году во время сбоя Amazon S3. Последний крупный сбой в облачной инфраструктуре Amazon произошёл в декабре 2021 года, когда из-за нарушения работы сервисов временно перестали работать стриминговые платформы Netflix и Disney+, а также другие крупные порталы, включая сам маркетплейс Amazon — и всё это незадолго до Рождества.
30.05.2023 [20:49], Владимир Мироненко
Rackspace ведёт работы по восстановлению систем после масштабного сбоя SANПровайдер облачных услуг Rackspace Technology столкнулся со сбоем на объектах в Европе и Азиатско-Тихоокеанском регионе. «Rackspace известно о проблемах с подключением в наших центрах обработки данных SYD2, LON5, LON3 и HKG5. Инженеры привлечены и работают над решением проблемы», — сообщила компания на странице состояния системы 29 мая в 22:24 CDT (6:24 мск). Как пишет The Register, поначалу компания свзязала проблемы с DWDM-подключением в Лондоне, поскольку находящийся там объект относится к транспортной сети Rackspace. На затем она заявила, что сбой был связан с IO-лимитами в многопользовательской среде SAN, которые были некорректно настроены. «Инженеры успешно выполнили сценарий для восстановления значений по умолчанию для IO-лимитов. Пока идёт проверка, несколько клиентов подтвердили, что среды снова подключены к сети», — сообщила компания 30-го мая в 4:37 CDT (29-го мая в 23:37 мск). На момент подготовки материала на странице мониторинга показывалось, что у четырёх объектов компании всё ещё наблюдались проблемы. «У некоторых клиентов в центрах обработки данных LON3 и LO5 в это время могут возникнуть проблемы с резервным копированием», — предупредила компания своих клиентов. В декабре 2022 года Rackspace столкнулась с крупной кибератакой, из-за которой пришлось отключить сервис Hosted Exchange. Компания заявила, что инцидент был вызван эксплойтом «нулевого дня» и что она не будет возобновлять работу сервиса.
02.03.2023 [00:18], Руслан Авдеев
Причиной сбоя Oracle NetSuite в США стал взрыв аккумуляторов в ЦОД CyxteraВзрыв и задымление в дата-центре компании Cyxtera в массачусетском кампусе, вероятно, были вызваны неизвестным сбоем электросистемы, результатом которого стал инцидент в аккумуляторном отсеке. Как сообщает DataCenter Dynamics, экспертам до сих пор не удалось установить точную причину инцидента, который привёл к отключению сервисов Oracle NetSuite в США. Хотя одной из строений на территории кампуса было повреждено, серьёзные жертвы и разрушения не зарегистрированы. Кампус BOS1 мощностью 16 МВт включает три здания в пригороде Бостона. Инцидент произошёл 14 февраля, но по данным местного пожарного ведомства, точная причина происшествия пока «не определена». Известно, что пожарная команда прибыла на место происшествия в 11:34 по местному времени, через шесть минут после сигнала тревоги, а уже к 14:30 «инцидент был в целом улажен». Пожарные эвакуировали сотрудников, обесточили помещение и занялись удалением из помещений угарного газа и цианида водорода. На момент прибытия экстренной службы электроснабжение и резервное питание всё ещё были активны, поэтому дополнительно пришлось обесточить всё здание. Выяснилось, что аварийный выключатель сработал на одной из трёх линий электроснабжения. Возможно, это привело к включению резервного источника и последующему взрыву с дуговым разрядом, в свою очередь, ставшими причиной задымления и повреждений. Взрыв разрушил один из аккумуляторных отсеков и повредил близлежащие. В это же время в том же помещении проводились работы на соседней энерголинии, но они, похоже, никак не связаны с происшествием. К счастью, электрики ушли на обед пораньше, не застав взрыв. Единственным пострадавшим оказался охранник, совершавший обход. Его доставили в больницу, в первую очередь, чтобы убедиться в отсутствии отравления продуктами горения. На данный момент считается, что источник возгорания не представляется возможным установить. Вероятнее всего, инцидент был вызван неустановленным «электрическим событием» на линии B, что привело к отключению аварийного выключателя. После того как автоматически заработал аварийный генератор, произошло замыкание с возгоранием. Пока расследование прекращено, но его могут возобновить, если появятся новые факты. В целом ситуация оказалась намного проще, чем, например, страсбургский пожар в марте 2021 года, в результате которого один ЦОД OVH Cloud сгорел полностью, а второй был серьёзно повреждён. Там возгорание тоже началось с энергоотсеков, но с гораздо более серьёзными последствиями. В прошлом году, как считается, Li-Ion батареи в южнокорейском ЦОД Kakao привели к пожару, повлекшему за собой самый масштабный во всём мире сбой дата-центра. Как отмечает Uptime Institute, число сбоев IT-систем с годами не уменьшается, а главной их причиной стали перебои с электропитанием, в том числе из-за участивших пожаров.
22.02.2023 [14:42], Сергей Карасёв
У Вьетнама и Тайваня появились проблемы с подводными интернет-кабелями — в деле нашли китайский следВ обрыве подводных интернет-кабелей, связывающих тайваньские острова, как сообщает Datacenter Dynamics, виноваты суда. Между тем в ремонте также нуждаются четыре из пяти подводных ВОЛС, обеспечивающих подключение к интернету Вьетнама. Говорится, что кабель Taiwan-Matsu No. 2, соединяющий главный остров Тайвань и острова Мацзу, был перерезан китайским рыболовным судном. Такую информацию распространила Национальная комиссия по коммуникациям страны (NCC). Вторая подводная линия, Taiwan-Matsu No. 3, была перебита неопознанным грузовым судном. Chunghwa Telecom, тайваньская телекоммуникационная компания, которая эксплуатирует один из кабелей, принесла извинения за обрыв и сообщила, что организовала ремонтные работы в максимально сжатые сроки. При этом пропускная способность линий была увеличена с 2,2 до 3,8 Гбит/с. Планируется также прокладка двух новых подводных кабелей, которые на этот раз будут заглублены на полтора метра, а не просто проложены по морскому дну. Учитывая постоянную и растущую напряжённость между Тайванем и Китаем, есть опасения, что ситуация с подводными кабелями только ухудшит отношения между сторонами. В этой связи Тайвань уже занялся вопросами обеспечения безопасности подводной кабельной инфраструктуры, соединяющей страну с интернетом. Что касается вьетнамских кабелей, то причина их повреждения пока не установлена. Из пяти линий только одна — SeaMeWe-3 (SMW3) — работает в полную силу. Ещё две, Asia-Africa Europe 1 (AAE-1) и Intra Asia (IA), испытывают проблемы. Две другие, Asia-America Gateway (AAG) и Asia Pacific Gateway (APG), полностью отключены. На этом фоне планируется прокладка двух–трёх новых кабелей в ближайшие пять лет. Нужно отметить, что за последние пять лет подводные ВОЛС разрывались более 20 раз. Для защиты подводных оптоволоконных и силовых кабелей Великобритания приобрела специальный корабль. Вопросами защиты подводных интернет-кабелей также занимается Норвегия.
30.01.2023 [23:44], Владимир Мироненко
Минус £1,4 млн, 100 приёмов врачей и один орган для трансплантации: NHS подсчитала потери двух лондонских больниц из-за сбоя ЦОДОтключение доступа к IT-сервисам в двух лондонских больницах в связи со сбоем в работе ЦОД из-за аномальной жары в июле прошлого года принесло Национальной службе здравоохранения Великобритании (NHS) убытки в размере £1,4 млн, сообщил ресурс DatacenterDynamics со ссылкой на отчёт ведомства. Два дата-центра, которые обеспечивали поддержку компьютерных систем больниц фонда Guy's and St Thomas' NHS Foundation Trust, столкнулись с проблемами в функционировании оборудования из-за рекордной температуры в более чем +40 °C. О сбоях в системах охлаждения ЦОД и массовых отключениях сервисов тогда сообщили Google и Oracle. А из-за перегрева оборудования в некоторых ЦОД поливали водой из шлангов внешние модули систем кондиционирования на крыше, чтобы хоть как-то их охладить. В результате сбоя врачи были вынуждены перейти на бумажные медицинские карты, а более 100 приёмов пришлось отложить или отменить. Также не удалось получить орган для трансплантации одному из пациентов больницы. В отчёте NHS сообщается, что возникшие проблемы вызвали «усталость, стресс, а также оказали негативное влияние на моральный дух» персонала. На полное восстановление сервисов потребовалось шесть недель. NHS отметила, что этого можно было бы избежать, если бы дата-центры были должным образом подготовлены к подобной ситуации. В частности, дефектный разъем шланга стал причиной задержки в запуске системы охлаждения одного из ЦОД, в то время как в другом были обнаружены проблемы с водоснабжением. |
|