Материалы по тегу: gb200

28.01.2025 [12:10], Сергей Карасёв

Pegatron поставит суперускорители NVIDIA GB200 NVL72 ИИ-стартапу Lambda Labs

Стартап Lambda Labs, по сообщению ресурса Datacenter Dynamics, заключил партнёрское соглашение с серверным подразделением тайваньского ODM-производителя компьютерных комплектующих Pegatron. В рамках договора Pegatron развернёт суперускорители NVIDIA GB200 NVL72 для ИИ-инфраструктуры Lambda Labs.

Напомним, фирма Lambda Labs была основана в 2012 году. Она предоставляет услуги облачных ИИ-вычислений с использованием собственных систем, оснащённых ускорителями NVIDIA, а также процессорами AMD и Intel. Кроме того, компания продаёт рабочие станции на базе GPU и предоставляет услуги колокации. Lambda Labs провела несколько раундов финансирования: полученные средства направляются на наращивание вычислительных мощностей и увеличение штата.

В июле 2024 года сообщалось, что у суперускорителей с чипами NVIDIA GB200 возникли проблемы с СЖО: из-за дефектных компонентов фиксировались протечки. А в ноябре появилась информация, что стойки NVL72 перегревались, в связи с чем NVIDIA была вынуждена обратиться к поставщикам с просьбой внести ряд изменений в конструкцию стоек. Кроме того, NVIDIA и Schneider Electric занялись разработкой эталонной архитектуры охлаждения для ЦОД на основе GB200 NVL72.

Источник изображения: Pegatron

Впрочем, на текущий момент все проблемы устранены, а NVIDIA и партнёры организовали полномасштабное производство серверов на базе Blackwell. При этом клиенты уже приступили к монтажу суперускорителей GB200 NVL72. Такие системы, в частности, устанавливает стартап xAI Илона Маска (Elon Musk). Как отмечается, стратегическое партнёрство с Lambda Labs позволит Pegatron выйти на стремительно расширяющийся рынок ИИ-серверов. Первая система GB200 NVL72 (производства Supermicro), принадлежащая Lambda, была запущена на прошедших выходных в «водородном» дата-центре EdgeCloudLink.

Постоянный URL: http://servernews.ru/1117360

18.01.2025 [22:31], Владимир Мироненко

CoreWeave поставит IBM ИИ-суперкомпьютер на базе NVIDIA GB200 NVL72 для обучения моделей Granite

CoreWeave и IBM заключили соглашение о сотрудничестве, в рамках которого стартап поставит IBM один из первых своих ИИ-суперкомпьютеров на базе NVIDIA GB200 NVL72 с интерконнектом Quantum-2 InfiniBand. В качестве хранилища будет использоваться высокопроизводительная All-Flash СХД IBM Storage Scale System. IBM будет использовать облачную платформу CoreWeave для обучения семейства больших языковых моделей (LLM) Granite.

Источник изображения: CoreWeave

Сообщается, что облачная платформа CoreWeave специально создана для обеспечения ведущей в отрасли производительности, надёжности и отказоустойчивости с безопасностью корпоративного уровня. Фирменный набор ПО и облачные сервисы предоставляют инструменты, необходимые для управления самой сложной и масштабной ИИ-инфраструктурой. В рамках соглашения о сотрудничестве клиенты CoreWeave получат доступ к платформе IBM Storage.

По словам вице-президента по ИИ в IBM Research, платформа CoreWeave позволит дополнить возможности IBM при разработке передовых, производительных и экономичных моделей для поддержки корпоративных приложений и ИИ-агентов. В свою очередь, IBM Storage Scale System расширяет возможности CoreWeave. «В рамках сотрудничества мы будем использовать этот суперкомпьютер для продвижения открытых технологий, таких как Kubernetes, которые будут поддерживать вычисления ИИ в гибридной облачной среде», — добавил представитель IBM.

Вероятно, IBM не хватает собственных вычислительных ресурсов — в ноябре появилась информация о том, что компания готова арендовать у AWS ИИ-ускорители за почти полмиллиарда долларов.

Постоянный URL: http://servernews.ru/1116957

17.01.2025 [15:17], Владимир Мироненко

NVIDIA строит в Израиле ИИ-суперкомпьютер стоимостью $500 млн

NVIDIA построит за $500 млн на севере Израиля 30-МВт научно-исследовательский суперкомпьютер на базе ускорителей Blackwell последнего поколения стоимостью около полмиллиарда долларов, сообщил The Register. Строительство кластера началось ещё в прошлом году, а закончить его планируется в I полугодии 2025 года.

Кластер будет располагаться на объекте площадью 10 тыс. м² в научно-промышленном парке Mevo Carmel недалеко от Йокнеам-Илита (Yokne'am Illit). По словам компании, он получит сотни систем Blackwell с фирменным жидкостным охлаждением, DPU BlueField-3 SuperNIC, коммутаторами Spectrum-X800 и Quantum-X800. Как полагает The Register, кластер будет использоваться NVIDIA для разработки технологий ЦОД следующего поколения.

Точное количество ускорителей не указано. У NVIDIA есть несколько эталонных систем Blackwell с жидкостным охлаждением и различным количеством ускорителей. Согласно публикациям израильских СМИ, полная конфигурация нового суперкомпьютера будет включать «несколько тысяч» GPU, что позволит ему соперничать с национальным суперкомпьютером Israel-1. Israel-1 построен на 2048 ускорителях NVIDIA H100, объединённых с помощью 80 коммутаторов Spectrum-4. Суперкомпьютер имеет пиковую FP64-производительность до 137 Пфлопс, а FP8 — до 8 Эфлопс.

Источник изображения: NVIDIA

The Register отметил, что на реализации проекта могут отразиться новые экспортные ограничения США. Согласно правилам AI Diffusion rule, Израиль относится к странам второго уровня с квотой на поставку до 50 тыс. передовых ускорителей в течение двухлетнего периода (2025–2027 гг.). Впрочем, эти правила вступят в силу через 120 дней с момента публикации, поэтому у NVIDIA в запасе достаточно времени для поставки необходимого количества ускорителей в Израиль.

С учётом прочных связей Израиля с США есть большая вероятность того, что стране будет предоставлен статус National Verified End User, что увеличит лимит импорта до 320 тыс. ускорителей в течение двухлетнего периода, отметил The Register.

Постоянный URL: http://servernews.ru/1116883

19.12.2024 [10:27], Сергей Карасёв

Стартап xAI начал монтаж суперускорителей NVIDIA GB200 NVL72 для ИИ-кластера Colossus

Стартап xAI Илона Маска (Elon Musk), по сообщению ресурса ServeTheHome, приступил к расширению мощности ИИ-кластера Colossus. Речь идёт о монтаже суперускорителей NVIDIA GB200 NVL72 на архитектуре Blackwell.

В начале сентября уходящего года компания xAI запустила ИИ-суперкомпьютер Colossus, в основу которого изначально легли 100 тыс. ускорителей NVIDIA H100. Сообщалось, что в дальнейшем количество ускорителей NVIDIA планируется увеличить вдвое. В начале декабря стартап получил $6 млрд инвестиций с целью увеличения числа ускорителей в составе Colossus до 1 млн штук.

Отмечалось, что проект по расширению ИИ-кластера реализуется в партнёрстве с NVIDIA, Dell и Supermicro. Вместе с тем ранее появилась информация, что Dell перехватила у Supermicro крупный заказ на ИИ-серверы для xAI. Судя по всему, именно Dell является поставщиком систем GB200 NVL72 для комплекса Colossus.

Источник изображения: Uday Ruddarraju

На днях специалист xAI Удай Руддарраджу (Uday Ruddarraju) опубликовал на своей странице в социальной сети Х фотографию новых серверных модулей в составе Colossus. На снимке видны вычислительные узлы и лотки с коммутаторами NVLink. Наблюдатели отмечают, что компоненты пока не подключены к основной сети, на что указывает отсутствие оптоволоконных соединений. Вместе с тем уже подсоединены низкоскоростные сети управления. В узлах установлены карты NVIDIA Bluefield-3.

Источник изображения: Michael Dell

В отражении от шара с логотипом xAI просматриваются стойки с оборудованием. Предположительно, это системы производства Dell. Ранее глава этой компании Майкл Делл (Michael Dell) объявил о начале поставок первых в мире серверных стоек GB200 NVL72. Кроме того, Dell представила систему PowerEdge XE9712, которая использует архитектуру суперускорителя GB200 NVL72.

Постоянный URL: http://servernews.ru/1115644

18.12.2024 [15:45], Руслан Авдеев

Microsoft купила как минимум вдвое больше ускорителей NVIDIA, чем любой из конкурентов

По оценкам аналитиков Omdia, Microsoft приобрела вдвое больше флагманских ускорителей NVIDIA в сравнении с любым из своих конкурентов. В Omdia подсчитали, что в 2024 году IT-гигант приобрёл 485 тыс. ускорителей NVIDIA Hopper, следующий по масштабу покупатель из США — компания Meta✴ купила всего 224 тыс. ускорителей. Заметно отстают и AWS с Google, сообщает The Financial Times

В последние пару лет спрос на передовые ускорители превышает предложение. В этом году техногиганты потратили на ЦОД на основе новейших чипов NVIDIA Blackwell десятки миллиардов долларов, а венчурные инвесторы вкладывают огромные средства в ИИ-технологии несмотря на пока низкую отдачу.

Облачная инфраструктура Microsoft активно используется не только самой корпорацией, но и OpenAI, в том числе для обучения новейшей модели o1. Идёт непрекращающееся соревнование с Google, стартапами вроде Anthropic и xAI, не говоря уж о китайских конкурентах. Так, по оценкам Omdia китайские ByteDance и Tencent заказали по 230 тыс. ускорителей NVIDIA только в этом году, включая ослабленную модель H20. Amazon и Google, наряду с Meta✴ работающие над внедрением собственных ускорителей, пока приобрели 196 тыс. и 169 тыс. Hopper соответственно.

Источник изображений: NVIDIA

Microsoft, инвестировавшая $13 млрд в OpenAI, является наиболее агрессивно среди других американским IT-гигантов наращивает инфраструктуру ИИ ЦОД. Кроме того, она предлагает и собственные ИИ-сервисы вроде Copilot. В этом году компания заказала втрое больше чипов NVIDIA того же поколения, чем в 2023-м. Во второй половине октября сообщалось, что компания стремительно наращивает закупки суперускорителей NVIDIA GB200 NVL.

Про данным Omdia, на серверы технологические компании мира потратят в 2024 году $229 млрд. Впереди Microsoft с $31 млрд капитальных расходов и Amazon c $26 млрд. 10 ведущих покупателей инфраструктуры ЦОД, включая xAI и CoreWeave, обеспечивают 60 % вложений в вычислительные мощности. На NVIDIA приходится 43 % трат на серверы.

Хотя NVIDIA всё ещё доминирует на рынке ИИ-чипов, AMD активно пытается составить ей конкуренцию. В этом году Meta✴ приобрела 173 тыс. ускорителей MI300, а Microsoft — 96 тыс. Также крупные компании используют и чипы собственной разработки. Google уже десять лет разрабатывает TPU, а у Meta✴ есть два поколения MTIA — обе компании внедрили по 1,5 млн собственных чипов. Amazon развернула 1,3 млн ускорителей Trainium и Inferentia. Для Anthropic компания намерена построить кластер из сотен тысяч Trainium для обучения новейшего поколения ИИ-моделей. Amazon уже инвестировала в стартап $8 млрд.

При этом сама Microsoft, хоть и выпускает собственные полупроводниковые продукты, конкурирующие с NVIDIA, но внедрила в этом году только 200 тыс. чипов Maia. Чипы NVIDIA всё ещё нужны Microsoft для предоставления «уникальных» сервисов. Правда, для этого компании дополнительно нужны инфраструктура, ПО и другие компоненты экосистемы. В начале ноября появилась информация, что Microsoft по итогам I квартала 2025 финансового года не хватает ресурсов для обслуживания ИИ, но компания готова и далее вкладываться в ЦОД, хотя инвесторам это не по нраву. Более того, Microsoft потратит $10 млрд на аренду ИИ-серверов у CoreWeave.

Постоянный URL: http://servernews.ru/1115609

06.12.2024 [16:42], Сергей Карасёв

iGenius анонсировала Colosseum — один из мощнейших в мире ИИ-суперкомпьютеров на базе NVIDIA DGX GB200 SuperPod

Компания iGenius, специализирующаяся на ИИ-моделях для отраслей со строгим регулированием, анонсировала вычислительную платформу Colosseum. Это, как утверждается, один из самых мощных в мире ИИ-суперкомпьютеров на платформе NVIDIA DGX SuperPOD с тысячами ускорителей GB200 (Blackwell).

Известно, что комплекс Colosseum располагается в Европе. Полностью характеристики суперкомпьютера не раскрываются. Отмечается, что он обеспечивает производительность до 115 Эфлопс на операциях ИИ (FP4 с разреженностью). Говорится о применении передовой системы жидкостного охлаждения. Для питания используется энергия из возобновляемых источников в Италии.

По информации Reuters, в состав Colosseum войдут около 80 суперускорителей GB200 NVL72. Таким образом, общее количество ускорителей Blackwell достигает 5760. Общее энергопотребление системы должно составить почти 10 МВт. Стоимость проекта не называется. Но глава iGenius Ульян Шарка (Uljan Sharka) отмечает, что компания в течение 2024 года привлекла на развитие примерно €650 млн и намерена получить дополнительное финансирование для проекта Colosseum. При этом подчёркивается, что iGenius — один из немногих стартапов в области ИИ в Европе, капитализация которого превышает $1 млрд.

Источник изображения: iGenius

iGenius планирует применять Colosseum для ресурсоёмких приложений ИИ, включая обучение больших языковых моделей (LLM) с триллионом параметров, а также работу с открытыми моделями генеративного ИИ. Подчёркивается, что создание Colosseum станет основой для следующего этапа сотрудничества между iGenius и NVIDIA в области ИИ для поддержки задач, требующих максимальной безопасности данных, надёжности и точности: это может быть финансовый консалтинг, обслуживание пациентов в системе здравоохранения, государственное планирование и пр.

Модели iGenius AI, созданные с использованием платформы NVIDIA AI Enterprise, NVIDIA Nemotron и фреймворка NVIDIA NeMo, будут предлагаться в виде микросервисов NVIDIA NIM. По заявлениям iGenius, Colosseum поможет удовлетворить растущие потребности в ИИ-вычислениях. Colosseum также будет служить неким хабом, объединяющим предприятия, академические учреждения и государственные структуры.

Нужно отметить, что около месяца назад компания DeepL, специализирующаяся на разработке средств автоматического перевода на основе ИИ, объявила о намерении развернуть платформу на базе NVIDIA DGX GB200 SuperPod в Швеции. DeepL будет применять этот комплекс для исследовательских задач, в частности, для разработки передовых ИИ-моделей.

Постоянный URL: http://servernews.ru/1115043

27.11.2024 [00:44], Владимир Мироненко

DIGITIMES Research ожидает снижение поставок серверов в IV квартале — «виноваты» будут суперускорители NVIDIA GB200 NVL72

Согласно оценкам аналитиков DIGITIMES Research, глобальные поставки серверов в III квартале 2024 года выросли на 4,3 % по сравнению с предыдущим кварталом, превзойдя предыдущие прогнозы, но из-за высоких показателей базового периода поставки в IV квартале, как ожидается, последовательно снизятся.

Крупнейшие провайдеры облачных услуг (CSP) США продолжили наращивать закупки серверов общего назначения следующего поколения в III квартале. Большинство CSP также увеличили закупки высокопроизводительных ИИ-серверов по сравнению с предыдущим кварталом, отметили в DIGITIMES Research. Вместе с тем поставки в количественном выражении не оправдали ожиданий, поскольку клиенты сделали упор на закупки ИИ-серверов, отличающихся гораздо более высокой ценой.

DIGITIMES Research прогнозирует снижение в IV квартале мировых поставок серверов на 5,2 % по сравнению с III кварталом из-за высокой базы в связи с активными закупками серверов облачными провайдерами из США и ожидаемого начала поставок суперускорителей NVIDIA GB200 NVL72, что должно привести к замедлению темпов поставок серверов общего назначения. Серверные бренды и китайские CSP также снизят динамику поставок в IV квартале, и обе группы, как ожидается, столкнутся с более значительным последовательным снижением поставок по сравнению с конкурентами в сфере облачных услуг из США.

Источник изображения: Microsoft

DIGITIMES Research отметила, что общий рынок серверов продолжил восстановление в III квартале 2024 года, при этом CSP из США, такие, как Meta✴, Microsoft и Amazon, ускорили внедрение новых платформ, что привело к росту их совокупных поставок на 13 % по сравнению с предыдущим кварталом.

Вместе с тем американские серверные бренды — за исключением Dell — столкнулись со спадом поставок в III квартале, что привело к общему снижению поставок на 1,1 % за прошедшие три месяца. Спад в первую очередь связан с более консервативным в сравнении с гиперскейлерами подходом предприятий к инвестициям в ИТ, не связанным с ИИ, что привело к сокращению закупок серверов общего назначения.

Как ожидает DIGITIMES Research, в IV квартале 2024 года CSP из США в основном зафиксируют резкий последовательный спад поставок, за исключением Meta✴ и Microsoft, которые, как ожидается, продолжат начавшиеся в предыдущем квартале закупки новых серверов, что приведёт к небольшому росту поставок за квартал. Относительно устойчивые закупки Meta✴ и Microsoft позитивно отразятся на росте показателей их ключевых тайваньских партнёров по производству серверов, Wiwynn и Foxconn.

Состояние глобальной экономики в IV квартале останется неопределённым, что повлияет на инвестиции предприятий, сообщила DIGITIMES Research. Поскольку экономика Китая также замедляется, американские бренды и китайские CSP могут столкнуться в последние три месяца 2024 года с резким сокращением заказов.

Постоянный URL: http://servernews.ru/1114573

20.11.2024 [01:40], Владимир Мироненко

Microsoft представила кастомные чипы Azure Boost DPU и Integrated HSM, уникальный AMD EPYC 9V64H с HBM и собственный вариант NVIDIA GB200 NVL72

Microsoft представила на конференции Microsoft Ignite новые специализированные чипы Azure Boost DPU и Azure integrated Hardware Security Module (HSM), предназначенные для использования в ЦОД с целью поддержки рабочих нагрузок в облаке Azure и повышения безопасности.

Источник изображений: Microsoft

Чтобы снизить зависимость от поставок чипов сторонних компаний, Microsoft занимается разработкой собственных решений для ЦОД. Например, на прошлогодней конференции Microsoft Ignite компания представила Arm-процессор Azure Cobalt 100 и ИИ-ускоритель Azure Maia 100 собственной разработки. Azure Boost DPU включает специализированные ускорители для работы с сетью и хранилищем, а также предлагает функции безопасности. Так, скорость работы с хранилищем у будущих инстансов Azure будет вчетверо выше, чем у нынешних, а энергоэффективность при этом вырастет втрое.

Не вызывает сомнений, что в разработке Azure Boost DPU участвовали инженеры Fungible, производителя DPU, который Microsoft приобрела в декабре прошлого года. Как отмечает TechCrunch, в последние годы популярность DPU резко увеличилась. AWS разработала уже несколько поколений Nitro, Google совместно с Intel создала IPU, AMD предлагает DPU Pensando, а NVIDIA — BlueField. Есть и другие нишевые игроки. Согласно оценкам Allied Analytics, рынок чипов DPU может составить к 2031 году $5,5 млрд.

Ещё один кастомный чип — Azure integrated Hardware Security Module (HSM) — отвечает за хранение цифровых криптографических подписей и ключей шифрования в защищённом модуле «без ущерба для производительности или увеличения задержки». «Azure Integrated HSM будет устанавливаться на каждом новом сервере в ЦОД Microsoft, начиная со следующего года, чтобы повысить защиту всего парка оборудования Azure как для конфиденциальных, так и для общих рабочих нагрузок», — заявила Microsoft. Azure Integrated HSM работает со всем стеком Azure, обеспечивая сквозную безопасность и защиту.

Microsoft также объявила, что задействует ускорители NVIDIA Blackwell и кастомные серверные процессоры AMD EPYC. Так, инстансы Azure ND GB200 v6 будут использовать суперускорители NVIDIA GB200 NVL 72 в собственном исполнении Microsoft, а интерконнект Quantum InfiniBand позволит объединить десятки тысяч ускорителей Blackwell. Компания стремительно наращивает закупки этих систем. А инстансы Azure HBv5 получат уникальные 88-ядерные AMD EPYC 9V64H с памятью HBM, которые будут доступны только в облаке Azure. Каждый инстанс включает четыре таких CPU и до 450 Гбайт памяти с агрегированной пропускной способностью 6,9 Тбайт/с.

Кроме того, Microsoft анонсировала новое решение Azure Local, которое заменит семейство Azure Stack. Azure Local — это облачная гибридная инфраструктурная платформа, поддерживаемая Azure Arc, которая объединяет локальные среды с «большим» облаком Azure. По словам компании, клиенты получат обновление до Azure Local в автоматическом режиме.

Наконец, Microsoft анонсировала новые возможности в Azure AI Foundry, новой «унифицированной» платформе приложений ИИ, где организации смогут проектировать, настраивать и управлять своими приложениями и агентами ИИ. В числе новых опций — Azure AI Foundry SDK (пока в виде превью).

Постоянный URL: http://servernews.ru/1114275

19.11.2024 [23:28], Алексей Степин

HPE обновила HPC-портфолио: узлы Cray EX, СХД E2000, ИИ-серверы ProLiant XD и 400G-интерконнект Slingshot

Компания HPE анонсировала обновление модельного ряда HPC-систем HPE Cray Supercomputing EX, а также представила новые модели серверов из серии Proliant. По словам компании, новые HPC-решения предназначены в первую очередь для научно-исследовательских институтов, работающих над решением ресурсоёмких задач.

Источник изображений: HPE

Обновление касается всех компонентов HPE Cray Supercomputing EX. Открывают список новые процессорные модули HPE Cray Supercomputing EX4252 Gen 2 Compute Blade. В их основе лежит пятое поколение серверных процессоров AMD EPYС Turin, которое на сегодняшний день является самым высокоплотным x86-решениями. Новые модули позволят разместить до 98304 ядер в одном шкафу. Отчасти это также заслуга фирменной системы прямого жидкостного охлаждения. Она охватывает все части суперкомпьютера, включая СХД и сетевые коммутаторы. Начало поставок узлов намечено на весну 2025 года.

Процессорные «лезвия» дополнены новыми GPU-модулями HPE Cray Supercomputing EX154n Accelerator Blade, позволяющими разместить в одном шкафу до 224 ускорителей NVIDIA Blackwell. Речь идёт о новейших сборках NVIDIA GB200 NVL4 Superchip. Этот компонент появится на рынке позднее — HPE говорит о конце 2025 года. Обновление коснулось и управляющего ПО HPE Cray Supercomputing User Services Software, получившего новые возможности для пользовательской оптимизации вычислений, в том числе путём управления энергопотреблением.

Апдейт получит и фирменный интерконнект HPE Slingshot, который «дорастёт» до 400 Гбит/с, т.е. станет вдвое быстрее нынешнего поколения Slingshot. Пропускная способность коммутаторов составит 51,2 Тбит/c. В новом поколении будут реализованы функции автоматического устранения сетевых заторов и адаптивноой маршрутизации с минимальной латентностью. Дебютирует HPE Slingshot interconnect 400 осенью 2024 года.

Сервер HPE ProLiant Compute XD (Источник изображений здесь и далее: HPE)

Ещё одна новинка — СХД HPE Cray Supercomputing Storage Systems E2000, специально разработанная для применения в суперкомпьютерах HPE Cray. В сравнении с предыдущим поколением, новая система должна обеспечить более чем двукратный прирост производительности: с 85 и 65 Гбайт/с до 190 и 140 Гбайт/с при чтении и записи соответственно. В основе новой СХД будет использована ФС Lustre. Появится Supercomputing Storage Systems E2000 уже в начале 2025 года.

Что касается новинок из серии Proliant, то они, в отличие от вышеупомянутых решений HPE Cray, нацелены на рынок обычных ИИ-систем. 5U-сервер HPE ProLiant Compute XD680 с воздушным охлаждением представляет собой решение с оптимальным соотношением производительности к цене, рассчитанное как на обучение ИИ-моделей и их тюнинг, так и на инференс. Он оснащён восемью ускорителями Intel Gaudi3 и двумя процессорами Intel Xeon Emerald Rapids. Новинка поступит на рынок в декабре текущего года.

Более производительный HPE ProLiant Compute XD685 всё так же выполнен в корпусе высотой 5U, но рассчитан на жидкостное охлаждение. Он будет оснащаться восемью ускорителями NVIDIA H200 в формате SXM, либо более новыми решениями Blackwell, но последняя конфигурация будет доступна не ранее 2025 года, когда ускорители поступят на рынок. Уже доступен ранее анонсированный вариант с восемью ускорителями AMD Instinict MI325X и процессорами AMD EPYC Turin.

Постоянный URL: http://servernews.ru/1114187

18.11.2024 [21:30], Сергей Карасёв

Счетверённые H200 NVL и 5,5-кВт GB200 NVL4: NVIDIA представила новые ИИ-ускорители

Компания NVIDIA анонсировала ускоритель H200 NVL, выполненный в виде двухслотовой карты расширения PCIe. Изделие, как утверждается, ориентировано на гибко конфигурируемые корпоративные системы с воздушным охлаждением для задач ИИ и НРС.

Как и SXM-вариант NVIDIA H200, представленный ускоритель получил 141 Гбайт памяти HBM3e с пропускной способностью 4,8 Тбайт/с. При этом максимальный показатель TDP снижен с 700 до 600 Вт. Четыре карты могут быть объединены интерконнкетом NVIDIA NVLink с пропускной способностью до 900 Гбайт/с в расчёте на GPU. При этом к хост-системе ускорители подключаются посредством PCIe 5.0 x16.

В один сервер можно установить две такие связки, что в сумме даст восемь ускорителей H200 NVL и 1126 Гбайт памяти HBM3e, что весьма существенно для рабочих нагрузок инференса. Заявленная производительность FP8 у карты H200 NVL достигает 3,34 Пфлопс против примерно 4 Пфлопс у SXM-версии. Быстродействие FP32 и FP64 равно соответственно 60 и 30 Тфлопс. Производительность INT8 — до 3,34 Пфлопс. Вместе с картами в комплект входит лицензия на программную платформа NVIDIA AI Enterprise.

Источник изображения: NVIDIA

Кроме того, NVIDIA анонсировала ускорители GB200 NVL4 с жидкостным охлаждением. Они включает два суперчипа Grace-Backwell, что даёт два 72-ядерных процессора Grace и четыре ускорителя B100. Объём памяти LPDDR5X ECC составляет 960 Гбайт, памяти HBM3e — 768 Гбайт. Задействован интерконнект NVlink-C2C с пропускной способностью до 900 Гбайт/с, при этом всем шесть чипов CPU-GPU находятся в одном домене.

Источник изображения: NVIDIA

Система GB200 NVL4 наделена двумя коннекторами M.2 22110/2280 для SSD с интерфейсом PCIe 5.0, восемью слотами для NVMe-накопителей E1.S (PCIe 5.0), шестью интерфейсами для карт FHFL PCIe 5.0 x16, портом USB, сетевым разъёмом RJ45 (IPMI) и интерфейсом Mini-DisplayPort. Устройство выполнено в форм-факторе 2U с размерами 440 × 88 × 900 мм, а его масса составляет 45 кг. TDP настраиваемый — от 2,75 кВт до 5,5 кВт.

Постоянный URL: http://servernews.ru/1114148