Материалы по тегу: nvidia

21.07.2025 [14:05], Сергей Карасёв

NVIDIA CUDA обзавелась поддержкой RISC-V

Компания NVIDIA в ходе саммита RISC-V 2025 в Китае объявила о том, что ее платформа параллельных вычислений CUDA обзавелась поддержкой открытой архитектуры RISC-V. Это событие отражает растущий интерес к чипам RISC-V в сегменте дата-центров.

Представленное решение предполагает использование типичной конфигурации: графический ускоритель обрабатывает параллельные рабочие нагрузки, тогда как CPU на основе RISC-V отвечает за функционирование системных драйверов, логики приложений и операционной системы. Такая модель позволяет CPU полностью координировать GPU-вычисления в среде CUDA.

 Источник изображения:  RISC-V International (X/@risc_v)

Источник изображения: RISC-V International (X/@risc_v)

Кроме того, в дополнение к CPU с архитектурой RISC-V и ускорителю NVIDIA может быть задействован специализированный сопроцессор для обработки данных (DPU). Таким образом, могут формироваться гетерогенные вычислительные среды, в которых процессор RISC-V играет ключевую роль в управлении рабочими нагрузками. Предполагается, что чипы RISC-V будут использоваться на периферийных устройствах с поддержкой CUDA, включая решения с модулями NVIDIA Jetson.

Поддержка RISC-V расширяет возможности CUDA в системах, где предпочтение отдаётся открытым наборам команд или где требуются специально оптимизированные чипы. По сути, NVIDIA создаёт мост между проприетарным стеком CUDA и открытой архитектурой RISC-V, которая активно развивается по всему миру, в том числе в Китае.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Ранее ряд китайских компаний, включая T-Head (принадлежит гиганту Alibaba Group Holding), Shanghai Shiqing Technology, Juquan Optoelectronics, Xinsiyuan Microelectronics и StarFive, сформировали патентный альянс в сфере RISC-V. Разработкой RISC-V-процессоров занимается научно-исследовательский институт Damo Academy (подразделение Alibaba Group Holding), Китайская академия наук, а также ряд других участников местного рынка. Не имея возможности поставлять флагманские ИИ-ускорители в Китай из-за американских санкций, NVIDIA вынуждена искать другие способы развития экосистемы CUDA в КНР.

Постоянный URL: http://servernews.ru/1126268
20.07.2025 [14:26], Сергей Карасёв

NVIDIA приступила к производству ИИ-ускорителей GB300

Компания NVIDIA, по сообщению DigiTimes, приступила к ограниченному производству суперчипов Grace Blackwell GB300 для ресурсоёмких ИИ-нагрузок. Ожидается, что поставки изделия будут организованы в сентябре с постепенным наращиванием объёмов выпуска.

Решение GB300 представляет собой связку из Arm-процессора Grace с 72 ядрами Neoverse V2 и двух чипов Blackwell Ultra. В оснащение входят 288 Гбайт памяти HBM3E с пропускной способностью до 8 Тбайт/с. Ускоритель GB300 является основой стоечной системы GB300 NVL72, которая насчитывает 36 чипов Grace и 72 процессора Blackwell Ultra. ИИ-производительность такого комплекса достигает 720 Пфлопс на операциях FP8/FP6.

«На данном этапе серьёзных проблем с GB300 нет. Поставки должны идти гладко со II половины года», — подчеркнули представители одного из ODM-производителей.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Вместе с тем, как отмечается, сохраняется высокий спрос на ускорители GB200. Заказчики продолжают закупать эти изделия, несмотря на сложности с охлаждением. Огромная вычислительная мощность и повышенная плотность компоновки серверов обусловили необходимость применения жидкостных систем отвода тепла. Однако при этом возникли проблемы протечек. Оказалось, что во многих случаях это связано с быстроразъёмными соединениями, которые не всегда удовлетворяют нужным требованиям — даже после стресс-тестирования на заводе. ODM-производители отмечают, что реальные условия эксплуатации сильно различаются по давлению воды и конструкции трубопроводов, что затрудняет полное исключение протечек. Послепродажное обслуживание требует значительных временных и финансовых затрат.

В случае GB200 основные сложности были обусловлены переходом от архитектуры Hopper к Blackwell, что привело к комплексным изменениям на уровне платформы. С другой стороны, GB300 использует существующую инфраструктуру, а поэтому, как ожидается, серьёзных проблем при выпуске и поставках этих изделий не возникнет. ODM-производители, которые в настоящее время активно тестируют GB300, говорят об обнадёживающих результатах. Предполагается, что переход пройдёт гладко: массовые поставки запланированы на III квартал с увеличением объёмов выпуска в последней четверти текущего года.

Новые вызовы может создать появление ускорителей следующего поколения семейства Rubin, которые придут на смену Blackwell Ultra во II половине 2026 года. Эта платформа предполагает использование чиплетов и полностью новой стойки Kyber (для VR300 NVL 576), которая заменит нынешнюю конструкцию Oberon. Плотность компоновки возрастёт до 600 кВт на стойку, что потребует ещё более надёжных систем охлаждения. Отмечается, что применение СЖО станет обязательным для суперускорителей Rubin.

Вместе с тем с восстановлением производства ослабленных ускорителей H20, которые США вновь разрешили поставлять в Китай, возможны проблемы. Как передаёт Reuters со ссылкой на The Information, TSMC успела переключить производственные линии, которые использовались для H20, на выпуск других продуктов. Полное восстановление производства H20 может занять девять месяцев.

Постоянный URL: http://servernews.ru/1126238
17.07.2025 [16:31], Руслан Авдеев

США приостановили поставку в ОАЭ ИИ-ускорителей NVIDIA из-за опасений, что они в итоге достанутся Китаю

Знаковое соглашение о поставке в Объединённые Арабские Эмираты (ОАЭ) передовых ИИ-чипов NVIDIA может закончиться буквально ничем. Сделка встретила внутреннее сопротивление в администрации президента США из-за угроз национальной безопасности Соединённых Штатов, которые она, предположительно, несёт, сообщает The Wall Street Journal (WSJ).

По информации издания, ссылающегося на источники, якобы знакомые с ситуацией, хотя в мае Трамп поддержал соглашение о поставках, некоторые представители президентской администрации затягивают выполнение обязательств. Основная причина — опасения, что Китай может окольными путями получить доступ к передовым американским технологиям.

В эпицентре спора — базирующаяся в Абу-Даби компания G42, работающая с ИИ-проектами. Она должна была получить порядка 20 % чипов от общего числа, предусмотренного в соглашении. Ожидается, что Министерство торговли США не одобрит поставки G42. Компанию уже ловили на взаимодействии с Китаем, но в прошлом году она в рамках сделки с Microsoft якобы заключила с США неофициальное соглашение, в рамках которого полностью откажется от сотрудничества с КНР и избавится от китайских продуктов в своей инфраструктуре. При этом G42 участвует в создании крупнейшего ИИ-кластера OpenAI.

 Источник изображения: 86 media/unspalsh.com

Источник изображения: 86 media/unspalsh.com

По данным WSJ, официальные лица обсуждали возможность исключения G42 из сделки по поставке ускорителей, но это может вызвать недовольство чиновников из ОАЭ, поскольку компания считается неотъемлемой частью местного проекта по развитию искусственного интеллекта. Хотя реализация сделки приостановлена, стороны сохраняют оптимизм. В Министерстве торговли США выразили уверенность, что соглашение в конце концов будет достигнуто, а представители ОАЭ называют его «крупной победой обеих стран».

Впрочем, руководство технологических компаний разочаровано задержками, раскол наметился и среди политиков США. Некоторые из них опасаются, что китайские конкуренты вроде Huawei могут поставить в ОАЭ собственные ускорители, если сделка сорвётся. В условиях запрета на поставки ускорителей NVIDIA G42 активно инвестировала в другие компании. Из-за этого Cerebras до сих пор не может выйти IPO и всё ещё пытается убедить регуляторов США, что связи G42 с КНР в далёком прошлом.

Информация появилась вскоре после того, как NVIDIA заявила разрешении администрации Трампа продавать ослабленные ускорители H20 в Китай на фоне ослабления торговой напряжённости между Вашингтоном и Пекином. В самой КНР креативно подходят к решению проблемы дефицита ИИ-ускорителей NVIDIA — местные компании пользуются американскими облачными сервисами при помощи фирм-однодневок и посредников, коль скоро прямой доступ к американским ускорителям им запрещён.

Постоянный URL: http://servernews.ru/1126128
16.07.2025 [08:58], Руслан Авдеев

Разработка AWS собственной СЖО для NVIDIA GB200 NVL72 привела к падению акций Vertiv

Гиперскейлер Amazon Web Services (AWS) разработал собственную систему охлаждения для последнего поколения ускорителей NVIDIA. Ранее в этом месяце облачный гигант начал внедрение систем UltraServer на основе NVIDIA GB200 NVL72, поэтому переход на жидкостное охлаждение стал необходим, сообщает Datacenter Dynamics.

Вице-президент AWS Дэвид Браун (David Brown) заявил, что для поддержки «невероятных вычислительных мощностей» стойкам GB200 NVL72 пришлось перейти на СЖО. По его словам, ранее компания обходилась воздушным охлаждением, речь идёт о первом масштабном внедрении жидкостных систем в AWS. При этом AWS рассматривала возможность обратиться к сторонним разработчикам СЖО, но решила отказаться от идеи, поскольку она потребовала бы строительства полностью новых ЦОД, рассчитанных на такие системы охлаждения. Это привело бы к задержкам внедрения на несколько лет.

 Источник изображения: AWS

Источник изображения: AWS

Альтернативой были полностью готовые решения для жидкостного охлаждения, но они не подходили из-за проблем с масштабируемостью: занимали слишком много места в ЦОД, требовали значительных переделок инфраструктуры или значительно увеличивали расход воды.

Вместо этого компания разработала собственный теплообменник In Row Heat Exchanger (IRHX), который можно использовать без серьёзных изменений существующей инфраструктуры. IRHX состоит из блока распределения теплоносителя, насосного блока и теплообменников с вентиляторами. Охлаждающая жидкость к водоблокам, совместно разработанным AWS и NVIDIA. IRHX легко масштабируется, позволяя по необходимости убирать или добавлять внутренние теплообменники.

 Источник изображения: AWS

Источник изображения: AWS

Ранее AWS похвасталась, что у неё ушло четыре месяца на переход от набросков к первому прототипу прототипам и ещё 11 месяцев — на переход к массовому производству. AWS не впервые разрабатывает собственное оборудование. Компания имеет собственные чипы семейств Graviton, Tranium и Inferentia, а в прошлом году она представила серию решений для дата-центров для обеспечения выполнения связанных с ИИ задач нового поколения.

После новости об использовании AWS собственных решений, акции Vertiv, поставляющей различные системы охлаждения для ЦОД, упали в цене. По данным Bloomberg Intelligence, разработки Amazon могут негативно сказаться на перспективах роста бизнеса Vertiv, поскольку она является крупным клиентом компании. Около 10 % всех продаж Vertiv связаны с жидкостным охлаждением.

Постоянный URL: http://servernews.ru/1125999
15.07.2025 [12:55], Сергей Карасёв

NVIDIA возобновит поставки ускорителей H20 в Китай

Компания NVIDIA, по сообщению Reuters, заявила о планах возобновить отгрузки ИИ-ускорителей H20 в Китай. Соответствующий вопрос обсуждался на встрече основателя и генерального директора NVIDIA Дженсена Хуанга (Jensen Huang) с президентом США Дональдом Трампом (Donald Trump) и американскими политиками.

Правительство США выражает обеспокоенность тем, что китайские военные могут использовать передовые ускорители ИИ для разработки оружия. В этой связи в конце 2023 года американские власти по соображениям национальной безопасности ввели экспортные ограничения на поставки мощных чипов NVIDIA в Китай. Санкции затронули изделия A800 и H800 — модифицированные версии A100 и H100, созданные специально для КНР.

После этого NVIDIA разработала для китайского рынка ускоритель H20, но и он впоследствии оказался под санкциями. С целью возобновления поставок продукции в Китай NVIDIA рассматривала возможность выпуска дополнительно ухудшенной версии H20. Компания заявляла, что из-за экспортных ограничений администрации Трампа она понесла расходы в размере $4,5 млрд в I квартале 2026 финансового года, связанные с избыточными запасами и закупочными обязательствами по H20. При этом Хуанг подчёркивал, что введённые запреты являются «ошибочными и абсолютно неправильными».

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Как теперь сообщается, NVIDIA удалось договориться с властями США о возобновлении отгрузок H20 в Китай. Компания подаст заявки на получение необходимых экспортных лицензий, и после их одобрения китайские заказчики начнут снова получать эти ИИ-ускорители. Кроме того, в III квартале будут налажены поставки RTX 6000D (возможно, под именем B30).

Вместе с тем директор Omdia по исследованиям полупроводникового рынка Хэ Хуэй (He Hui) отмечает, что неопределённость в отношениях между США и Китаем остаётся высокой. Несмотря на приостановку действия запрета на поставки H20, китайские компании продолжат диверсифицировать свои возможности по использованию ускорителей для задач ИИ. NVIDIA, в частности, столкнулась с возросшей конкуренцией со стороны китайского технологического гиганта Huawei и других местных производителей.

Постоянный URL: http://servernews.ru/1125973
13.07.2025 [10:57], Сергей Карасёв

CoreWeave запустила первые общедоступные инстансы на базе NVIDIA RTX Pro 6000 Blackwell Server Edition

Оператор ИИ-облака CoreWeave объявил о запуске инстансов с ускорителями NVIDIA RTX Pro 6000 Blackwell Server Edition для генеративных приложений, рендеринга в реальном времени и работы с большими языковыми моделями (LLM). Утверждается, что это первые общедоступные облачные экземпляры, построенные на базе названных GPU.

Изделия RTX Pro 6000 Blackwell Server Edition на архитектуре Blackwell насчитывают 24 064 ядра CUDA, 752 тензорных ядра пятого поколения и 188 ядер RT четвёртого поколения. В оснащение входят 96 Гбайт памяти GDDR7 с пропускной способностью до 1,6 Тбайт/с.

CoreWeave заявляет, что по сравнению с инстансами на основе NVIDIA L40S новые экземпляры обеспечивают 5,6-кратное повышение производительности при LLM-инференсе, 3,5-кратное увеличение быстродействия на операциях преобразования текста в видео и более чем 2-кратное повышение скорости тонкой настройки ИИ-моделей. Заявленная ИИ-производительность в режиме FP4 достигает 3,8 Пфлопс.

 Источник изображения: CoreWeave / NVIDIA

Источник изображения: CoreWeave / NVIDIA

Инстансы CoreWeave с ускорителями NVIDIA RTX Pro 6000 Blackwell Server Edition доступны в конфигурациях, насчитывающих до восьми GPU. Задействованы два процессора Intel Xeon поколения Emerald Rapids, а также DPU NVIDIA BlueField-3. Экземпляры предоставляют свыше 7 Тбайт пространства для хранения данных на основе NVMe SSD.

Говорится о поддержке служб CoreWeave Observability Services, которые отвечают за детальный мониторинг использования ресурсов, а также предоставляют данные о системных ошибках, температуре и пр. Это помогает быстро обнаруживать и устранять проблемы, минимизируя сбои в рабочих процессах. Новые инстансы доступны посредством CoreWeave Kubernetes Service (CKS) и Slurm on Kubernetes (SUNK) в американском регионе CoreWeave US-EAST-04.

Постоянный URL: http://servernews.ru/1125885
12.07.2025 [01:00], Руслан Авдеев

NVIDIA, Cisco и Indosat помогут Индонезии встать на ИИ-рельсы

Индонезия сделала важный шаг к созданию суверенного ИИ, объявив о создании «Центра передового опыта в сфере ИИ» (AI Center of Excellence, CoE). Проект реализуется под руководством Министерства цифровых коммуникаций и информации (Komdigi) и при поддержке NVIDIA, Cisco и телеком-оператора Indosat Ooredoo Hutchison (IOH). Центр станет частью национальной инициативы «Золотое видение 2045» (Golden 2045 Vision), направленной на цифровую трансформацию экономики и развитие инноваций.

В задачи CoE входят развитие локальной ИИ-инфраструктуры, подготовка кадров и поддержка стартапов. Частью CoE станет NVIDIA AI Technology Center, который обеспечит поддержку исследований в области ИИ, предоставит доступ к программе NVIDIA Inception для стартапов и предложит обучение в экосистеме NVIDIA Deep Learning Institute. Также CoE получит типовую суверенную ИИ-фабрику с новейшими ускорителями Blackwell. Дополнительно курируемый государством форум разработает надёжные ИИ-фреймворки для создания решений, соответствующих местным ценностям.

Важное внимание уделяется вопросам кибербезопасности. На базе центра заработает система Sovereign Security Operations Center Cloud Platform, разработанная Cisco, сочетающая ИИ-распознавание угроз, локальное управление данными и управляемые сервисы обеспечения безопасности.

Проект строится на четырёх стратегических столпах:

  • Суверенная инфраструктура — масштабируемая и защищённая ИИ-инфраструктура, отвечающая национальным задачам;
  • Безопасные ИИ-нагрузки — ожидается надёжная защита цифровых ресурсов с помощью решений Cisco.
  • ИИ для всех — предусмотрено обеспечение доступа к ИИ для миллионов индонезийцев к 2027 году;
  • Подготовка кадров — планируется обучение 1 млн человек цифровым навыкам, включая ИИ и кибербезопасность.
 Источник изображения:  Jeremy Bishop/unspalsh.com

Источник изображения: Jeremy Bishop/unspalsh.com

Уже сейчас около 30 независимых разработчиков и стартапов используют ИИ-инфраструктуру IOH на базе NVIDIA. С учётом того, что Indosat покрывает связью весь индонезийский архипелаг, компания может обслуживать сотни миллионов носителей индонезийского языка (Bahasa Indonesia) с помощью приложений на основе специальных LLM, таких как Indosat Sahabat-AI. В будущем Indosat и NVIDIA намерены внедрять технологии AI-RAN, позволяющие охватывать ещё более широкий круг людей, которые смогут пользоваться ИИ с помощью беспроводных сетей.

Индонезия давно стала весьма привлекательным рынком для инвесторов. Так, Microsoft намерена в течение четырёх лет инвестировать в облачную инфраструктуру и ИИ-проекты Индонезии $1,7 млрд. А NVIDIA и Indosat Ooredoo Hutchison планируют построить ИИ-центр стоимостью $200 млн в Центральной Яве, $500 млн намерена инвестировать Tencent. Даже «Яндекс» имеет там собственные интересы.

Постоянный URL: http://servernews.ru/1125819
11.07.2025 [09:09], Сергей Карасёв

В облаке AWS появились инстансы EC2 P6e-GB200 UltraServer на базе ИИ-суперускорителей NVIDIA GB200 NVL72

Облачная платформа AWS объявила о доступности высокопроизводительных инстансов EC2 P6e-GB200 UltraServer, рассчитанных на наиболее ресурсоёмкие нагрузки ИИ. В основу экземпляров положены суперускорители NVIDIA GB200 NVL72.

Система GB200 NVL72 объединяет в одной стойке 18 узлов 1U, каждый из которых содержит два ускорителя GB200, что даёт в общей сложности 72 чипа B200 и 36 процессоров Grace. Задействована шина NVLink 5.

Инстансы u-p6e-gb200-x72 предоставляют доступ к 72 чипам поколения Blackwell в одном домене NVLink, включая примерно 13,4 Тбайт памяти HBM3e. Производительность в режиме FP8 достигает 360 Пфлопс. Количество vCPU составляет до 2592, объём памяти — до 17 280 ГиБ. Кроме того, предоставляется до 405 Тбайт пространства для хранения данных. Используются адаптеры AWS Elastic Fabric Adapter (EFAv4) с низкой задержкой, агрегированной скоростью передачи данных 28,8 Тбит/с и поддержкой NVIDIA GPUDirect RDMA. Пропускная способность EBS достигает 1080 Гбит/с. Также доступны u-p6e-gb200-x36 с вдвое меньшими характеристиками.

 Источник изображений: AWS

Источник изображений: AWS

Применяется система AWS Nitro, которая переносит функции виртуализации, хранения и сетевые операции на выделенное оборудование и ПО для повышения производительности и улучшения безопасности. Инстансы EC2 P6e-GB200 UltraServer объединяются в кластеры EC2 UltraCluster, что обеспечивает возможность безопасного и надёжного масштабирования до десятков тысяч ускорителей.

AWS отмечает, что новые экземпляры подходят для работы с передовыми ИИ-моделями, насчитывающими триллионы параметров. При этом может использоваться сочетание экспертных и рассуждающих моделей. После резервирования ёмкости стоимость за инстанс списывается авансом, и цена не меняется после оплаты.

Постоянный URL: http://servernews.ru/1125797
10.07.2025 [17:30], Сергей Карасёв

Bloomberg: Китай строит в пустыне гигантский комплекс ИИ ЦОД для 115 тыс. ускорителей NVIDIA, поставки которых запрещены США

На окраине пустыни Гоби в Синьцзяне (автономный район на северо-западе Китая), по сообщению Bloomberg News, ведутся активные работы по строительству кампуса ЦОД для ИИ-задач. Согласно имеющейся информации, в этих дата-центрах будут применяться серверы с ускорителями NVIDIA, поставки которых запрещены в КНР в соответствии с американскими санкциями.

Специалисты Bloomberg News проанализировали сведения, содержащиеся в инвестиционных одобрениях, тендерных документах и заявках китайских компаний. Утверждается, что масштабные планы Китая в отношении развития ИИ прямо предусматривают использование «запрещённых» продуктов NVIDIA, а не только местных решений вроде Huawei Ascend.

В частности, в IV квартале 2024 года власти Синьцзяна (Xinjiang) и соседней провинции Цинхай (Qinghai) одобрили создание в общей сложности 39 дата-центров, в которых будет задействовано более 115 тыс. ИИ-ускорителей NVIDIA. Причём во всех случаях речь идёт об H100 и H200. Операторы ЦОД в Синьцзяне намерены разместить львиную долю этих ускорителей в одном крупном комплексе, который будет использоваться для обучения передовых ИИ-моделей и других ресурсоёмких нагрузок. Строительные работы организованы в уезде Иу (Yìwū).

Сотрудникам Bloomberg News не удалось установить, каким способом китайские компании намерены приобретать изделия NVIDIA, закупки которых запрещены без получения специальных лицензий от правительства США. Местные операторы дата-центров, государственные чиновники и представители центрального правительства в Пекине отказались давать какие-либо комментарии по данному вопросу. Между тем, как отмечается в публикации, стоимость 115 тыс. указанных ИИ-ускорителей может составить миллиарды долларов, исходя из цен на чёрном рынке Китая.

 Источник изображения: Bloomberg

Источник изображения: Bloomberg

И всё же строительство комплекса ЦОД продолжается. Синьцзян, и особенно регион Хами (Hāmì), включающий уезд Иу, богаты ветровой и солнечной энергией, а также углём. Это позволит решить вопросы, связанные с энергообеспечением дата-центров. Дополнительными достоинствами выбранного региона являются доступность больших территорий, низкая стоимость земли и прохладный климат в высотных районах. Согласно тендерной документации, полученной Bloomberg, по состоянию на июнь 2025 года по семи проектам ЦОД в Синьцзяне либо начаты строительные работы, либо выиграны тендеры на услуги ИИ-вычислений.

В частности, один из крупнейших проектов связан с энергокомпанией Nyocor из Тяньцзиня (Tianjin), которая специализируется на солнечной и ветровой энергетике. Инициатива предусматривает создание дата-центра на базе 625 серверов с ускорителями H100. Nyocor продаёт вычислительные мощности корпорации Infinigence AI — одной из крупнейших организаций в сфере ИИ-инфраструктуры в Китае. В документах по 27 другим проектам ЦОД, одобренным в Синьцзяне и Цинхае в прошлом году, упоминаются в общей сложности более 9 тыс. серверов и около 72 тыс. ускорителей H100/H200.

Два высокопоставленных чиновника американской администрации заявили, что по их оценкам, в Китае имеется примерно 25 тыс. запрещенных ИИ-ускорителей NVIDIA: такое количество, как утверждается, не вызывает серьёзного беспокойства. Более того, даже в случае приобретения ещё 115 тыс. карт NVIDIA масштабы соответствующих ИИ-платформ в КНР окажутся несопоставимы с мощью развитой инфраструктурой ИИ в США.

Нужно отметить, что за последние годы власти Китая потратили $6,1 млрд на строительство крупных кампусов ЦОД, тогда как ещё $28 млрд вложили частные инвесторы. Площадки дата-центров появились в регионе Внутренняя Монголия, провинциях Нинся, Ганьсу, Гуйчжоу, регионе Пекин-Тяньцзинь-Хэбэй, а также в дельте Янцзы и на других территориях. Однако многие подобные объекты оказались невостребованными из-за переоценённого спроса и архитектурных недоработок.

Постоянный URL: http://servernews.ru/1125727
08.07.2025 [17:09], Владимир Мироненко

Российский суперкомпьютер «Говорун» получил два узла «РСК Экзастрим ИИ» с NVIDIA H100 и фирменной СЖО

ГК РСК продемонстрировала 2U-узел (912 × 508 × 88 мм) собственной разработки «РСК Экзастрим ИИ» на базе восьми ускорителей NVIDIA H100 с прямым жидкостным охлаждением. Два таких узла были установлены в суперкомпьютере «Говорун» в Дубне.

«РСК Экзастрим ИИ» включает:

  • 2 × Intel Xeon Platinum Sapphire Rapids или Emerald Rapids;
  • 8 × NVIDIA H100 или H200 NVL (интерфейс PCIe) с попарно объединёнными NVLink-мостиками;
  • 32 × DDR5 DIMM (суммарно до 2 Тбайт);
  • 8 × E1.S NVMe SSD (суммарно 128 Тбайт) + загрузочный M.2 NVMe SSD;
  • 4 × адаптер Mellanox ConnectX (до 800 Гбит/с);
  • 2 × 10GbE-контроллер;
  • 4 × БП РСК (12 В, 1,5 кВт каждый);
  • СЖО РСК;
  • «РСК БазИС 4» для управления и мониторинга.

«РСК Экзастрим ИИ» имеет локальную подсистему хранения «тёплых данных», сетевую подсистему с доступом на основе технологии GPUDirect. Также есть возможность расширения ресурсов путём подключения дополнительных пар ускорителей или системы внешнего хранения данных на базе пула JBOF, подключаемой напрямую.

Производительность «РСК Экзастрим ИИ» составляет до 208 Тфлопс (FP64). При установке 21 сервера в шкаф «РСК Экзастрим» пиковая производительность достигает 4,26 Пфлопс (FP64). Сервер отличается высокой энергоэффективностью, сверхвысокой плотностью монтажа и надёжной работой. Он может использоваться для решения ресурсоёмких задач в области машинного обучения и ИИ, создания мощных вычислительных ресурсов облачных провайдеров и в частных облаках и т.д.

 Источник изображений: РСК

Источник изображений: РСК

Два узла «РСК Экзастрим ИИ» были установлены в суперкомпьютере «Говорун» в Лаборатории информационных технологий им М.Г. Мещерякова Объединенного института ядерных исследований (ЛИТ ОИЯИ) в Дубне в рамках нового этапа модернизации, проведенной силами специалистов ГК РСК и лаборатории.

Как сообщается, новые серверы «РСК Экзастрим ИИ» уникальны и были сконструированы и изготовлены для СК «Говорун» с учётом его архитектурных особенностей. При этом пиковая FP64-производительность GPU-компоненты суперкомпьютера «Говорун» выросла на 36 % и достигла 1,4 Пфлопс, пиковая суммарная FP64-производительность суперкомпьютера теперь составляет 2,2 Пфлопс.

Характеристики серверов «РСК Экзастрим ИИ», установленных в ОИЯИ:

  • 2 процессора Intel Xeon Platinum 8468 (48C/96T; 2,1–3,8 ГГц, L3-кеш 105 Мбайт);
  • 8 ускорителей NVIDIA H100 (PCIe, 80 Гбайт);
  • 1 Тбайт оперативной памяти;
  • NVMe SSD общей ёмкостью 16 Тбайт;
  • 4 БП производства РСК;
  • СЖО РСК.

В конце 2024 года было проведено расширение СХД суперкомпьютера «Говорун», после чего её ёмкость увеличилась до 10 Пбайт. В СХД вычислительного комплекса ОИЯИ были добавлены два узла хранения данных RSC Tornado AFS ёмкостью 1 Пбайт каждый. Обновленная модификация СХД RSC Tornado AFS включает серверную плату на базе процессоров Intel Xeon Sapphire Rapids, а также коммутатор с интерфейсом PCIe 4.0, что позволило установить по два адаптера интерконнекта с пропускной способностью 200 Гбит/с каждый.

СХД RSC Tornado AFS поддерживает технологию GPUDirect Storage (GDS), которая обеспечивает прямую передачу данных между локальным или удалённым хранилищем и памятью ускорителя. Две СХД, установленные ранее специалистами РСК в суперкомпьютере «Говорун» входят в мировой рейтинг IO500 самых высокопроизводительных системам хранения данных.

В суперкомпьютере «Говорун» используются интегрированный программный комплекс «РСК БазИС 4» и модуль «РСК БазИС СХД» (включены в Реестр российского ПО). Микроагентная архитектура «РСК БазИС 4» обеспечивает функционирование объектов системы, позволяя также взаимодействовать с ними. «РСК БазИС» в сочетании с аппаратными платформами РСК позволяет создавать гиперконвергентные решения для HPC и эффективной обработки больших объёмов данных.

Постоянный URL: http://servernews.ru/1125604
Система Orphus