Материалы по тегу: цод

06.07.2024 [23:09], Владимир Мироненко

China Mobile запустила в Китае ЦОД с 4000 ИИ-ускорителей, треть из которых — отечественные

Китайская телекоммуникационная компания China Mobile объявила об официальном запуске в Пекине «интеллектуального вычислительного центра» — дата-центра площадью 57 тыс. м2, оснащённого серверами с 4 тыс. ИИ-ускорителей общей производительностью 1 Эфлопс (точность вычислений здесь и далее не указывается). Треть установленных в дата-центре ускорителей (33 %) — местного производства, сообщил ресурс China Daily.

China Mobile также сообщила, что разместила у местных компаний заказ на поставку оборудования для своих «интеллектуальных вычислительных центров» на сумму $2,6 млрд. В общей сложности China Mobile закупит в период с 2024 по 2025 год 8054 единиц оборудования для своих для ЦОД, включая 7994 ИИ-сервера вместе со вспомогательным оборудованием, а также 60 коммутаторов, сообщил ресурс Data Center Dynamics.

 Источник изображения: China Mobile

Источник изображения: China Mobile

В числе победителей тендера — Wuhan Guangxun Technology, Kunlun Technology, Huakun Zhenyu, Boyd Computer, Powerleader и Yangtze Computing. Kunlun Technology поставляет ИИ-серверы и периферийное оборудование, Huakun Zhenyu выпускает серверы на базе Arm-процессоров Huawei Kunpeng и ИИ-ускорителей Huawei Ascend, а Powerleader специализируется на выпуске серверов и ПК для корпоративного сегмента.

Ранее China Mobile сообщила, что построила крупнейший ЦОД в Хух-Хото (Внутренняя Монголия, Китай), оснащённый 20 тыс. ИИ-ускорителями общей производительностью 670 Тфлопс. В дальнейшем компания планирует построить ЦОД в Харбине (Harbin) на северо-востоке Китая и Гуйяне (Guiyang) на юге страны. Сейчас у China Mobile есть 12 «интеллектуальных» ЦОД в КНР, общая производительность которых составляет 17 Эфлопс.

Постоянный URL: http://servernews.ru/1107604
05.07.2024 [22:50], Руслан Авдеев

ChinData заняла $490 млн для рефинансирования малайзийского подразделения

Принадлежащий Bain Capital оператор ЦОД Chindata занял $490 млн у банков, желающих заработать на развитии стремительно растущей в Азии цифровой инфраструктуры. Datacenter Dynamics сообщает, что пятилетний синдицированный заём пойдёт на рефинансирование малазийского подразделения компании.

Новый заём послужит для рефинансирования старого на сумму $500 млн, взятого на три года в 2022 году. В числе новых кредиторов: DBS Group Holdings, China Merchants Bank, Credit Agricole SA, China Minsheng Banking Corp, сингапурское подразделение Bank of East Asia, Bayfront Infrastructure Management, Fubon Bank Hong Kong и China Citic Bank International.

 Источник изображений: ChinData

Источник изображений: ChinData

Основанная в 2015 году ChinData сегодня управляет более 15 ЦОД в Китае, Малайзии и Таиланде, но некоторые некитайские активы находятся под контролем дочерней компанией Bridge Data Centres (BDC). Bain Capita выкупила ChinData l у Wangsu Science & Technology Co. в 2019 году, а позже состоялось слияние с Bridge Data Centres, которая уже входило в портфель Bain.

В прошлом году Bain вновь сделала ChinData частной компанией в ходе сделки по слиянию, в ходе которой та объединилась с принадлежащими Bain подразделениями BCPE Chivalry Bidco Limited и BCPE Chivalry Merger Sub Limited. На тот момент услуги компании пользовалась спросом и её покупкой интересовались GDS, EdgeConneX (EQT) и поддерживаемая властями КНР China Merchants. Правда, в марте появилась новость о том, что Bain намерена продать часть активов компании.

ChinData известна как оператор ЦОД TikTok (ByteDance). Ранее сообщалось, что ByteDance потратит более $2 млрд на новый ИИ-хаб в Малайзии, причём компания как раз и является якорным арендатором крупного кампуса BDC MY06 в технопарке Седенак (Sedenak) в Джохоре. Примерно столько же готовы вложить в местные проекты Google и Microsoft. Но есть и масса других начинаний. Так, в мае Yondr взяла в долг $150 млн для строительства ЦОД в Sedenak. Там же построит свой кампус и Princeton Digital Group (PDG), для создания «зелёного» ЦОД она заняла $280 млн. А местная YTLP вложит $4,3 млрд в дата-центры и ИИ-суперкомпьютеры.

Постоянный URL: http://servernews.ru/1107559
05.07.2024 [17:22], Руслан Авдеев

Суверенное облако с грифом «совершенно секретно»: Австралия выделит AWS $1,35 млрд на постройку и оснащение трёх ЦОД для военных и разведки

Австралийские власти объявили о намерении построить защищённое облако TS Cloud силами Amazon Web Services (AWS). По данным The Register, его создадут при участии Австралийского радиотехнического управления (Australian Signals Directorate, ранее Управление радиотехнической обороны), ответственного за кибербезопасность и радиоразведку.

Top Secret Cloud (TS Cloud) будет построено для оборонного и разведывательного сообщества страны с целью безопасного хранения и обработки наиболее секретной информации. Предполагается, что TS Cloud даст Австралии возможность защищённо, быстро и в больших масштабах делиться данными между компетентными ведомствами и анализировать их, а также использовать передовые технологии, включая ИИ и машинное обучение. Кроме того, оно упростит взаимодействие со спецслужбами США.

На облако планируется потратить AUD$2 млрд ($1,35 млрд) в течение десяти лет. Сумма должна покрыть возведение трёх независимых дата-центров и создание местного подразделения AWS. Также будет создано 2 тыс. рабочих мест.

 Источник изображения: AWS

Источник изображения: AWS

В облаке будут храниться наиболее секретные данные. У разных правительственных ведомств могут быть разные определения суверенитета, возможно, для некоторых потребуется соблюдение самых строгих норм. Австралия входит в разведывательный альянс «Пяти глаз», также включающий США, Канаду, Великобританию и Новую Зеландию и ей необходима возможность защищённого обмена данными с партнёрами.

AWS уже строила Top Secret облака для американского правительства, Великобритания тоже пользуется сервисами Amazon для хранения и обработки совершенно секретной информации. Наконец, в 2021 году AWS объявила о подписании сделки на строительство аналогичных ЦОД в Новой Зеландии на сумму $7,5 млрд новозеландских долларов ($5,3 млрд).

Постоянный URL: http://servernews.ru/1107550
05.07.2024 [09:18], Владимир Мироненко

Потрать доллар — получи семь: ИИ-арифметика от NVIDIA

NVIDIA заявила, что инвестиции в покупку её ускорителей весьма выгодны, передаёт ресурс HPCwire. По словам NVIDIA, компании, строящие огромные ЦОД, получат большую прибыль в течение четырёх-пяти лет их эксплуатации. Заказчики готовы платить миллиарды долларов, чтобы не отстать в ИИ-гонке.

«Каждый доллар, вложенный провайдером облачных услуг в ускорители, вернётся пятью долларами через четыре года», — заявил Иэн Бак (Ian Buck), вице-президент HPC-подразделения NVIDIA на конференции BofA Securities 2024 Global Technology Conference. Он отметил, что использование ускорителей для инференса несёт ещё больше выгоды, позволяя получить уже семь долларов за тот же период.

Как сообщается, инференс ИИ-моделей Llama, Mistral и Gemma становится всё масштабнее. Для удобства NVIDIA упаковывает открытые ИИ-модели в оптимизированные и готовые к запуску контейнеры NIM. Компания отметила, что её новейшие ускорители Blackwell оптимизированы для инференса. Они, в частности, поддерживают типы данных FP4/FP6, что повышает энергоэффективность оборудования при выполнении рабочих нагрузок ИИ с низкой интенсивностью.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

Провайдеры облачных услуг планируют строительство ЦОД на пару лет вперёд и хотят иметь представление о том, какими будут ускорители в обозримом будущем. Бак отметил, что провайдерам важно знать, как будут выглядеть ЦОД с серверами на базе чипов Blackwell и чем они будут отличаться от дата-центров на Hopper. Скоро на смену Blackwell придут ускорители Rubin. Их выпуск начнётся в 2026 году, так что гиперскейлерам уже можно готовиться к обновлению дата-центров.

Как ожидается, чипы Blackwell, первые партии которых будут поставлены к концу года, будут в дефиците. «С каждым новым технологическим переходом возникает… сочетание проблем спроса и предложения», — отметил Бак. По его словам, операторы ЦОД постепенно отказываются от инфраструктуры на базе CPU, освобождая место под большее количество ускорителей. Ускорители Hopper пока остаются в ЦОД и всё ещё будут основными «рабочими лошадками» для ИИ, но вот решения на базе архитектур Ampere и Volta уже перепродаются.

Microsoft и Google сделали ставку на ИИ и сейчас работают над более функциональными большими языковыми моделями, причём Microsoft (и OpenAI) в значительной степени полагается на ускорители NVIDIA, тогда как Google опирается на TPU собственной разработки для использования в своей ИИ-инфраструктуре. Пока что самая крупная модель насчитывает порядка 1,8 трлн параметров, но по словам Бака, это только начало. В дальнейшем появятся модели с триллионами параметров, вокруг которой будут построены более мелкие и более специализированные модели. Так, свежая GPT-модель (вероятно, речь о GPT-4o) включает 16 отдельных нейросетей.

NVIDIA уже адаптирует свои ускорители к архитектуре Mixture of Experts (MoE, набор экспертов), где процесс обработки запроса пользователя делится между несколькими специализированными «экспертными» нейросетями. GB200 NVL72, по словам Бака, идеально подходит для MoE благодаря множеству ускорителей связанных быстрым интерконнектом, каждый из которых может обрабатывать часть запроса и быстро делится ответом с другими.

Постоянный URL: http://servernews.ru/1107501
04.07.2024 [23:59], Владимир Мироненко

Systême Electric представила первые продукты для мониторинга и автоматизации инфраструктуры ЦОД

Российская производственная компания «Систэм Электрик» (Systême Electric, ранее Schneider Electric в России) объявила о выходе семейства продуктов для мониторинга и автоматизации инфраструктуры ЦОД, которое включает устройство мониторинга параметров окружающей среды SystemeBotz, решение для контроля доступа в ИТ-стойку SystemeBotzAC, а также ПО для централизованного мониторинга DCGuard. Решения являются полноценной заменой аналогичной продукции APC. Новинки будут доступны для проведения опытно-промышленной эксплуатации на объектах клиентов до 31 октября 2024.

SystemeBotz представляет собой масштабируемую систему активного мониторинга, призванную обеспечить защиту помещений, технологического и ИТ-оборудования от различных факторов риска. Это типовое решение сетевого мониторинга серверных комнат, узлов связи и ЦОД, которое устанавливается в стойку и позволяет подключить без надобности в предварительной настройке различные типы датчиков Systême Electric: температуры и влажности, точечных и ленточных протечек, положения двери, дыма и пожара, наличия напряжения, датчики типа «сухой контакт».

 Источник изображения: «Систэм Электрик»

Источник изображения: «Систэм Электрик»

SystemeBotzAC — система контроля и управления доступом, разработанная для защиты стоек, позволяющая в режиме реального времени выполнять мониторинг факторов риска физического воздействия и несанкционированного доступа к ИТ-инфраструктуре. Система включает датчики положения дверей, ручки стоек со встроенными считывателями карт, коммуникационные блоков для передачи параметров, блоки питания и IP-камеры. Все компоненты системы совместимы с серверными шкафами Systême Electric, а также некоторыми стойками других производителей.

Программная платформа верхнего уровня DCGuard в режиме реального времени собирает, хранит и визуализирует параметры работы инженерной инфраструктуры объекта, оповещая пользователя об инцидентах и аварийных событиях. DCGuard обеспечивает сбор данных по промышленным протоколам для однофазных и трёхфазных ИБП, рядных и периметральных кондиционеров, PDU) устройств мониторинга параметров окружающей среды, систем холодоснабжения (чиллеров, драйкуллеров, частотно-регулируемых приводов и др.), систем мониторинга батарей, дизель-генераторных установок, а также распределительных щитов.

Постоянный URL: http://servernews.ru/1107534
04.07.2024 [17:12], Руслан Авдеев

Разовая акция: хакеры отдали ключи для дешифровки ЦОД властям Индонезии, но пригрозили карами, если их условия не будут выполнены

Группа хакеров-вымогателей Brain Cipher, недавно поставившая под угрозу работу индонезийского правительства, извинилась и прислала ключи для восстановления работы поражённого 20 июня ЦОД. Впрочем, напоминает The Register, $8 млн выкупа никто платить всё равно не собирался. В результате атаки посредством LockBit 3.0 была парализована работа многих правительственных служб, от миграционных до медицинских.

Brain Cipher, ответственная за взлом и шифровку правительственного ЦОД PDNS, прислала ключ в виде ESXi-файла объёмом 54 Кбайт. Хакеры ждут официального подтверждения, что ключ работает и что все данные были дешифрованы. После этого они удалят ту информацию, что была скачана ими из ЦОД. Однако если будет заявлено, что данные были восстановлены при помощи и участии третьих лиц, хакеры выложат в публичный доступ украденную информацию, хотя и не уточняют, какую именно.

 Источник изображения: Mr Cup / Fabien Barral / Unsplash

Источник изображения: Mr Cup / Fabien Barral / Unsplash

Согласно сообщению сингапурской Stealth Mole, команда вымогателей отправила заявление, в котором попросила прощения у граждан Индонезии. Кроме того, Brain Cipher объявила, что предоставляет файл для дешифровки по собственной воле, без давления силовых и прочих ведомств. При этом вымогатели пожелали благодарностей за своё благородное поведение и даже предоставили счёт для пожертвований.

Дополнительно они рассказали о своей мотивации. Речь шла о своего рода тесте возможностей. В своём послании Brain Cipher подчеркнули, что атака наглядно продемонстрировала, насколько важно финансировать IT-индустрию и нанимать квалифицированных специалистов. В этом случае, по данным злодеев, на выгрузку и шифрование петабайт данных ушло очень мало времени. В Brain Cipher подчеркнули, что не все жертвы могут рассчитывать на подобную снисходительность.

Глава одного из ведомств Министерства коммуникаций и информатизации Индонезии (Kominfo), который уже подал в отставку, подтвердил, что с помощью присланного ключа уже удалось расшифровать шесть наборов данных, но он не уверен, что ключ действительно универсальный. По словам одного из индонезийских ИБ-экспертов, это большой позор для Kominfo и страны. По его словам, при бюджете в 700 млрд рупий на защиту индонезийских данных, власти полагаются только на Windows Defender.

 Источник изображения: Dennis Schmidt/unsplash.com

Источник изображения: Dennis Schmidt/unsplash.com

В последние дни в правительстве страны наблюдалась лёгкая паника, поскольку выяснилось, что многие министерства и ведомства не делали резервных копий данных. После инцидента президент страны сделал создание резервных копий обязательным и назначил аудит правительственных дата-центров. Теперь политики и общественность ищет ответственного. В частности, сформирована петиция о снятии с должности главы Kominfo.

Местное издание Tempo со ссылкой на депутата Совет народных представителей (местного парламента) сообщает, что после инцидента 80 иностранных компаний начали аудит своих индонезийских подразделений. Для Индонезии, которая наряду с Малайзией стремится стать новым IT-центром Юго-Восточной Азии и пытается привлечь крупные инвестиции, взлом государственного дата-центра стал серьёзным ударом по репутации.

Постоянный URL: http://servernews.ru/1107512
03.07.2024 [15:34], Руслан Авдеев

Из-за ИИ за пять лет выбросы парниковых газов Google выросли на 48 %, а за год — на 13 %

Из-за масштабной экспансии Google на рынке ЦОД выбросы парниковых газов компании взлетели за последние пять лет на 48 %. Как сообщает Ars Technica, это ставит под сомнение цель IT-гиганта добиться «нулевых выбросов» к 2030 году.

Согласно докладу Google, в 2023 году выбросы достигли 14,3 млн тонн углеродного эквивалента. Это на 48 % больше в сравнении с показателями 2019 года и на 13 % в сравнении с 2022 годом. Всего в прошлом году компания использовала 25,91 ТВт∙ч электричества, в 2022 году — 21,776 ТВт∙ч, а пять лет назад — 12,237 ТВт∙ч. Сегодня на «безуглеродную» энергию приходится 67 % потребления компании, дополнительно закупается «чистое» электричество в Австралии, Бельгии, Техасе и других локациях.

 Источник изображения: Billy Joachim/unsplash.com

Источник изображения: Billy Joachim/unsplash.com

В компании признали, что снизить выбросы довольно трудно, одновременно инвестируя в генеративный ИИ и сопутствующую инфраструктуру. Подчёркивается, что влияние ИИ было трудно предсказать раньше. Тем не менее, в Google подтверждают намерение добиться «углеродной нейтральности» к 2030 году, но пока что выбросы будут расти «перед тем, как упасть». Утверждается, что компания интенсивно работает над этой проблемой, в том числе заключая сделки на поставки «чистой» энергии. Фактически компания седьмой год подряд закупает на 100 % возобновляемую энергию для своих ЦОД. Кроме того, ИИ открывает новые возможности для борьбы с изменениями климата.

 Источник изображения: Google

Источник изображения: Google

Google также уточнила, что связанные с энергетикой выбросы Scope 2 в 2023 году (в первую очередь речь про энергопотребление ЦОД), выросли на 37 % год к году, а в целом на них приходится четверть всех выбросов парниковых газов компании. Выбросы участников цепочки поставок Google составляют три четверти, при этом и они выросли на 8 %. В Google заявили, что рост продолжится в обозримом будущем, частично из-за сопутствующей инфраструктуры, необходимой для работы ИИ.

 Источник изображения: Google

Источник изображения: Google

Google обязалась добиться нулевых прямых и непрямых выбросов парниковых газов к 2030 году, чтобы круглосуточно работать на «чистой» энергии. Тем не менее, в отчёте компания сообщила о закрытии части связанных с возобновляемой энергией проектов в 2023 году, из-за чего доступ к такой энергии у компании снизился, а потребности в ней из-за роста энергопотребления ЦОД превысили доступные Google объёмы. В частности, такая ситуация наблюдается в США и Азиатско-Тихоокеанском регионе.

 Источник изображения: Google

Источник изображения: Google

В целом потребление ЦОД Google электричества выросло в 2023 году на 17 %, составив 7-10 % от энергопотребления всех дата-центров в мире. Согласно статистике, потребляется 100 % возобновляемой энергии, 67 % из которой приходится на безуглеродную энергию, индекс PUE для ЦОД в среднем составляет 1.1, а энергоэффективность дата-центров в 1,8 раза выше, чем у сопоставимых объектов в отрасли. Кроме того, объекты Google потребили на 17 % больше воды в 2023 году, чем годом ранее.

IT-гиганты, включая Google, Amazon (AWS) и Microsoft уже обнародовали планы инвестировать десятки миллиардов долларов в ИИ, поэтому эксперты неоднократно выражали озабоченность вероятным воздействием соответствующего оборудования на окружающую среду. В мае Microsoft признала, что её выбросы с 2020 года выросли почти на треть, во многом из-за строительства и внедрения ИИ ЦОД. Впрочем, один из основателей компании Билл Гейтс (Bill Gates) подчеркнул, что ИИ поможет продвигать современные климатические решения.

Постоянный URL: http://servernews.ru/1107438
03.07.2024 [08:32], Владимир Мироненко

Крупный европейский криптомайнер Northern Data обдумывает вывод на биржу подразделений ЦОД и ИИ

Компания Northern Data, деятельность которой связана с майнингом криптовалюты, предоставлением услуг высокопроизводительных вычислений (HPC) и ИИ, обдумывает возможность проведения IPO подразделений Taiga и Ardent, предоставляющих услуги облачных вычислений и ЦОД соответственно, пишет Bloomberg.

По данным источников Bloomberg, IPO может состояться на площадке Nasdaq. В настоящее время компания ведёт переговоры с банками для проведения публичного размещения акций. По оценкам банков, капитализация этих подразделений может составить $10–$16 млрд. Как и многие компании, занимающиеся майнингом криптовалют, Northern Data рассматривает HPC и ИИ как прибыльное дополнение к своей основной деятельности.

В прошлом году Northern Data разделила свой бизнес на три подразделения — Arden, Taiga и Peak Mining, сосредоточив в последнем все операции по майнингу криптовалют. Согласно информации на сайте компании, у неё имеется 11 дата-центров. Peak Mining, американское подразделение компании по майнингу биткоинов, строит и разрабатывает дата-центры суммарной ёмкостью почти 700 МВт, что в случае реализации всех планов сделает его одним из крупнейших майнеров криптовалюты в США.

Taiga уже владеет 24,5 тыс. ускорителей NVIDIA, включая H100, A100 и A6000. Они в основном находятся в трёх ЦОД в Швеции и Норвегии и на 100 % запитаны от «зелёных» источников энергии. В понедельник компания объявила, что первой в Европе приобрела 2 тыс. ускорителей NVIDIA H200, дополненных DPU BlueField-3 и ConnectX-7. Они будут размещены в одном из европейских ЦОД с PUE менее 1,2. Запуск первого кластера намечен на IV квартал, а его производительность составит порядка 32 Пфлопс (точность вычислений не указана). Пиковая теоретическая FP64-производительность такого количества ускорителей H200 составляет 68 Пфлопс.

 Источник изображения: Northern Data

Источник изображения: Northern Data

В свою очередь Ardent занимается дизайном и строительством высокоплотных ЦОД, ориентированных на HPC- и ИИ-нагрузки. Компания использует СЖО, а заявленный уровень PUE не превышает 1,15. При этом Ardent обещает 100 % доступность своих площадок.

Как сообщается, Northern Data в ноябре получила кредитное финансирование на сумму €575 млн от компании Tether Group, занимающейся стейблкоинами, а в январе завершила приобретение у Tether компании Damoon за €400 млн, рассчитавшись с помощью облигаций, конвертируемых в акции, выпущенные Northern Data AG. В результате Tether стала основным инвестором Northern Data. Полученные средства Northern Data использует для закупок самых востребованных чипов NVIDIA. Благодаря этому к концу лета компанией будет развёрнуто около 20 тыс. NVIDIA H100.

Постоянный URL: http://servernews.ru/1107421
02.07.2024 [23:55], Алексей Степин

15 тыс. ускорителей на один ЦОД: Alibaba Cloud рассказала о сетевой фабрике, используемой для обучения ИИ

Alibaba Cloud раскрыла ряд сведений технического характера, касающихся сетевой инфраструктуры и устройства своих дата-центров, занятых обработкой ИИ-нагрузок, в частности, обслуживанием LLM. Один из ведущих инженеров компании, Эньнань Чжай (Ennan Zhai), опубликовал доклад «Alibaba HPN: A Data Center Network for Large Language Model Training», который будет представлен на конференции SIGCOMM в августе этого года.

В качестве основы для сетевой фабрики Alibaba Cloud выбрала Ethernet, а не, например, InfiniBand. Новая платформа используется при обучении масштабных LLM уже в течение восьми месяцев. Выбор обусловлен открытостью и универсальностью стека технологий Ethernet, что позволяет не привязываться к конкретному вендору. Кроме того, меньше шансы пострадать от очередных санкций США.

Отмечается, что традиционный облачный трафик состоит из множества относительно небыстрых потоков (к примеру, менее 10 Гбит/с), тогда как трафик при обучении LLM включает относительно немного потоков, имеющих периодический характер со всплесками скорости до очень высоких значений (400 Гбит/с). При такой картине требуются новые подходы к управлению трафиком, поскольку традиционные алгоритмы балансировки склонны к перегрузке отдельных участков сети.

 Источник здесь и далее: Alibaba Cloud

Источник здесь и далее: Alibaba Cloud

Разработанная Alibaba Cloud альтернатива носит название High Performance Network (HPN). Она учитывает многие аспекты работы именно с LLM. Например, при обучении важна синхронизация работы многих ускорителей, что делает сетевую инфраструктуру уязвимой даже к единичным точкам отказа, особенно на уровне внутристоечных коммутаторов. Alibaba Cloud использует для решения этой проблемы парные коммутаторы, но не в стековой конфигурации, рекомендуемой производителями.

 Характер трафика при обучении LLM

Характер трафика при обучении LLM

Каждый хост содержит восемь ИИ-ускорителей и девять сетевых адаптеров. Каждый из NIC имеет по паре портов 200GbE. Девятый адаптер нужен для служебной сети. Между собой внутри хоста ускорители общаются посредством NVLink на скорости 400–900 Гбайт/с, а для общения с внешним миром каждому из них полагается свой 400GbE-канал с поддержкой RDMA. При этом порты сетевых адаптеров подключены к разным коммутаторам из «стоечной пары», что серьёзно уменьшает вероятность отказа.

В докладе говорится, что Alibaba Cloud использует современные одночиповые коммутаторы с пропускной способностью 51,2 Тбит/с. Этим условиям отвечают либо устройства на базе Broadcom Tomahawk 5 (март 2023 года), либо Cisco Silicon One G200 (июнь того же года). Судя по использованию выражения «начало 2023 года», речь идёт именно об ASIC Broadcom.

Своё предпочтение именно одночиповых коммутаторов компания объясняет просто: хотя многочиповые решения с большей пропускной способностью существуют, в долгосрочной перспективе они менее надёжны и стабильны в работе. Статистика показывает, что аппаратные проблемы у подобных коммутаторов возникают в 3,77 раза чаще, нежели у одночиповых.

Одночиповые решения класса 51,2 Тбит/с выделяют много тепла, но ни один поставщик оборудования не смог предложить Alibaba Cloud готовые решения, способные удерживать температуру ASIC в пределах 105 °C. Выше этого порога срабатывает автоматическая защита. Поэтому для охлаждения коммутаторов Alibaba Cloud создала собственное решение на базе испарительных камер.

Сетевая фабрика позволяет создавать кластеры, каждый из которых содержит 15360 ускорителей и располагается в отдельном здании ЦОД. Такое высокоплотное размещение позволяет использовать оптические кабели длиной менее 100 м и более дешёвые многомодовые трансиверы, которые дешевле одномодовых примерно на 70 %. Ёмкость такого дата-центра составляет около 18 МВт.

Но есть у HPN и недостаток: использование топологии с двумя внутристоечными коммутаторами и другие особенности архитектуры усложняют кабельную подсистему, поэтому инженеры поначалу столкнулись с ростом ошибок при подключении сетевых интерфейсов. В настоящее время активно используются тесты, позволяющие проверить каждое подключение на соответствие идентификаторов портов и коммутаторов рабочим схемам.

Отмечается, что параметры Ethernet-коммутаторов удваиваются каждые два года, поэтому компания уже разрабатывает сетевую архитектуру следующего поколения, рассчитанную на применение будущих ASIC 102,4 Тбит/с. По словам Alibaba Cloud, обучение LLM с сотнями миллиардов параметров потребует огромного распределённого кластера, количество ускорителей в котором исчисляется миллионами. И ему требуется соответствующая сетевая инфраструктура.

Постоянный URL: http://servernews.ru/1107345
02.07.2024 [16:06], Руслан Авдеев

Такой шанс бывает раз в жизни: криптойманеры Crusoe Energy займутся постройкой ИИ ЦОД

Компания Crusoe Energy, больше всего известная благодаря майнингу криптовалют с помощью попутного газа, начнёт строить стационарные ЦОД. Datacenter Dynamics сообщает, что она намерена воспользоваться ажиотажем вокруг ИИ, построив «гигаватты новых ёмкостей».

Основанная в 2018 году Crusoe запустила сервис с использованием контейнерных ЦОД у нефтяных скважин в США — там факельный газ, обычно сжигаемый при добыче, используется для получения электричества и питания микро-ЦОД. Изначально энергию использовали для майнинга биткоинов, но позже компания стала предлагать облачные HPC- и ИИ-сервисы Crusoe Cloud. Кроме того, с рядом партнёров были заключены сделки на колокейшн-основе, в частности, с atNorth и Digital Realty.

 Источник изображения: Danist Soh/unsplash.com

Источник изображения: Danist Soh/unsplash.com

На фоне ИИ-бума Crusoe намерена заняться строительством крупных стационарных дата-центров, в том числе для колокации ИИ-инфраструктуры сторонних клиентов. Компания разработала новую архитектуру ЦОД высокой плотности для размещения максимального количества ускорителей. Дизайн дата-центра ёмкостью 103 МВт включает четыре «крыла» по 25 МВт каждое и позволяет объединить до 100 тыс. ускорителей в рамках одной сетевой фабрики. Дизайн будет оптимизирован для прямого жидкостного охлаждения в сочетении с теплообменниками на дверях стоек. Впрочем, возможно применение и традиционных систем воздушного охлаждения.

В одном из последних отчётов компании говорится, что только треть облака Crusoe Cloud полагается на факельный газ, а остальные мощности расположены в сторонних ЦОД. Суммарная ёмкость площадок Crusoe составляет 200 МВт, но компания намерена освоить приблизительно ещё 4 ГВт. В США у Crusoe есть десятки уже работающих проектов. Компания намерена освоить площадки в Северной Америке и Европе, в дальнейшем рассматриваются Латинская Америка и Ближний Восток, ещё позже — Азия. Сейчас на Crusoe Cloud приходится около половины всей выручки, к концу года этот показатель может вырасти до 70–80 %.

 Фото: Crusoe Energy Systems

Фото: Crusoe Energy Systems

Crusoe привлекла сотни миллионов долларов, в число инвесторов входят Mubadala and the Oman Investment Authority, Valor Equity Partners, Founders Fund, Bain Capital Ventures, Coinbase Ventures, G2 и др. Готовится очередной раунд финансирования. Компания намерена сделать основной акцент на ИИ-бизнес, поскольку такая возможность «бывает раз в жизни». Но отказываться от криптопроектов она не намерена. В прошлом году Crusoe выделила $200 млн на покупку 20 тыс. ускорителей NVIDIA и объявила о намерении внедрить ИИ-суперкомпьютеры HPE Cray XD. Сегодня Crusoe предлагает ускорители NVIDIA H100, A100, L40S и A40.

Компания также не намерена полностью отказываться от факельного газа в своих проектах. В своих докладах она упоминает, что сейчас ищет новые источники метана вроде свалок. В то же время Crusoe вкладывается в технологии связывания и нейтрализации продуктов горения после сжигания топлива, а также уделяет особое внимание проектам малых модульных реакторов (SMR) с целью ускорить внедрение источников энергии нового поколения.

Постоянный URL: http://servernews.ru/1107383
Система Orphus