Материалы по тегу: infiniband

10.10.2023 [23:20], Сергей Карасёв

NVIDIA выпустит ускорители GB200 и GX200 в 2024–2025 гг.

Компания NVIDIA, по сообщению ресурса VideoCardz, раскрыла планы по выпуску ускорителей нового поколения, предназначенных для применения в ЦОД и на площадках гиперскейлеров. NVIDIA указывает лишь ориентировочные сроки выхода решений, поскольку фактические даты зависят от многих факторов, таких как макроэкономическая обстановка, готовность сопутствующего ПО, доступность производственных мощностей и пр.

В конце мая нынешнего года NVIDIA объявила о начале массового производства суперчипов Grace Hopper GH200, предназначенных для построения НРС-систем и платформ генеративного ИИ. Эти изделия содержат 72-ядерный Arm-процессор NVIDIA Grace и ускоритель NVIDIA H100 с 96 Гбайт памяти HBM3.

Как сообщается, ориентировочно в конце 2024-го или в начале 2025 года на смену Grace Hopper GH200 придет решение Blackwell GB200. Характеристики изделия пока не раскрываются. Но отмечается, что архитектура Blackwell будет применяться как в ускорителях для дата-центров, так и в потребительских продуктах для игровых компьютеров (предположительно, серии GeForce RTX 50).

На 2025 год, согласно обнародованному графику, намечен анонс загадочной архитектуры «Х». Речь, в частности, идёт о решении с обозначением GX200. Изделия GB200 и GX200 подойдут для решения задач инференса и обучения моделей. Примечательно, что старшие чипы также получат NVL-версии. Вероятно, вариант GH200 с увеличенным объёмом набортной памяти как раз и будет называться GH200NVL.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

При этом теперь компания разделяет продукты на Arm- и x86-направления. Первое, судя по всему, так и будет включать гибридные решения GB200 и GX200, а второе, вероятно, вберёт в себя в первую очередь ускорители в форм-факторе PCIe-карт и универсальные ускорители начального уровня серии 40: B40 и X40.

Сопутствовать новым чипам будут сетевые решения Quantum (InfiniBand XDR/GDR) и Spectrum-X (Ethernet) классов 800G и 1600G (1.6T). И если в области InfiniBand компания фактически является монополистом, то в Ethernet-сегменте она несколько отстаёт от, например, Broadcom, у которой теперь есть даже выделенные ИИ-решения, Cisco и Marvell. А вот про будущее NVLink компания пока ничего не рассказала.

Постоянный URL: http://servernews.ru/1094261
10.10.2023 [22:33], Алексей Степин

Опубликованы первичные спецификациии InfiniBand XDR: 200 Гбит/с на линию, 800 — на порт

Ассоциация IBTA (InfiniBand Trade Association), ответственная за развитие данного стандарта, опубликовала новые спецификации, утверждающие характеристики стандарта InfiniBand XDR.

Хотя Ethernet активно вытесняет другие сетевые стандарты благодаря быстрому росту скоростей и активному освоению всё новых технологий вроде RDMA, InfiniBand (IB) зачастую продолжает оставаться предпочтительным выбором для HPC-систем благодаря низкому уровню задержек, особенно критичному в случае крупномасштабной сети. Согласно данным Naddod, задержи у InfiniBand составляют не более 150–200 нс, в то время как для Ethernet этот показатель обычно составляет 500 нс и более.

Проблему с отставанием в пропускной способности должны решить новые спецификации, опубликованные IBTA в виде томов Volume 1 Release 1.7 (ядро архитектуры InfiniBand) и Volume 2 release 1.5 (аспекты физической реализации). Наиболее важным в новых спецификациях является первичное введение и описание стандарта XDR, предусматривающего скорость передачи данных 200 Гбит/с на каждую линию. Это автоматически даёт 800 Гбит/с на стандартный IB-порт из четырёх линий, а для связи между коммутаторами может быть использован канал на восемь линий, что даёт 1600 Гбит/с.

 Текущие планы IBTA по развитиию InfiniBand. Источник: InfiniBand Trade Association

Текущие планы IBTA по развитиию InfiniBand. Источник: InfiniBand Trade Association

Также тома содержат финальные спецификации физического уровня для InfiniBand NDR (100 Гбит/с на линию, 400 Гбит/с на порт). В данный момент полные тексты спецификаций доступны только для зарегистрированных пользователей на сайте IBTA. С кратким обзором Volume 1 Release 1.7 можно ознакомиться здесь.

Помимо этого, в обновлениях описывается улучшенная поддержка крупных многопортовых коммутаторов (radix switches), а также механизмы, улучшающие обработку сетевых заторов (congestion control). Как отмечает IBTA, InfiniBand XDR должен стать новым золотым стандартом в среде ИИ и HPC благодаря оптимальному сочетанию высокой пропускной способности с низким уровнем задержек и энергоэффективностью. Дальнейшие планы IBTA включают освоение ещё более скоростных стандартов GDR и LDR к 2026 и 2030 гг. соответственно.

Постоянный URL: http://servernews.ru/1094282
05.12.2022 [21:54], Алексей Степин

InfiniBand между ЦОД: NVIDIA представила третье поколение систем высокоскоростной связи MetroX-3 XC

Сети на основе InfiniBand традиционно используются в HPC-системах для связи в единое целое вычислительных узлов. Обычно речь идёт об организации сети в одном помещении, либо здании ЦОД, но иногда возникает нужда в высокоскоростной связи между кампусами, расположенными на расстоянии до десятков километров. Для решения этой задачи предназначена новое решение NVIDIA MetroX-3 XC.

Сама платформа была разработана ещё в бытность Mellanox независимой компанией, но платформа MetroX-2 была ограничена двумя внешними линками со скоростью 100 Гбит/с, работающими на дальности до 40 км, и россыпью локальных 200G-портов. Новая итерация платформы получила два внешних 100G-порта и два локальных 400G-порта. Используются новые модули со спектральным уплотнением каналов (DWDM). Физическая реализация использует 4 порта QSFP112 для данных и 2 аналогичных порта для управляющих целей.

 Схема работы MetroX-3 (Источник: NVIDIA)

Схема работы MetroX-3 (Источник: NVIDIA)

Разумеется, функционирует MetroX-3 XC в рамках экосистемы NVIDIA InfiniBand: она призвана работать совместно с коммутаторами Quantum-2, сетевыми адаптерами ConnectX-7 и DPU BlueField. Доступно два варианта, MTQ8400-HS2R и MTQ8400-HS2RC; последний отличается наличием шифрования сетевого трафика. Новая платформа связи MetroX совместима с фреймворком Holoscan HPC и может служить для соединения систем NVIDIA IGX, DGX и HGX.

Постоянный URL: http://servernews.ru/1078163
22.11.2022 [00:00], Владимир Мироненко

Microsoft Azure анонсировала первые HPC-инстансы с AMD EPYC Genoa и InfiniBand NDR: HBv4 и HX

Облачный провайдер Microsoft Azure анонсировал инстансы новых серий HBv4 и HX, оптимизированные для различных задач высокопроизводительных вычислений (HPC), таких как вычислительная гидродинамика (CFD), анализ методом конечных элементов, автоматизация проектирования электроники (EDA), визуализация, молекулярная динамика, геофизические исследования, моделирование погоды, ИИ-инференс, анализ финансовых рисков и т.д.

Спецификации новых ВМ:

  • Процессоры AMD EPYC Genoa (IV квартал 2022 г.).
  • Процессоры AMD EPYC Genoa-X (I полугодие 2023 г.).
  • Память DDR5 с ПСП 800 Гбайт/с (Stream Triad).
  • 400-Гбит/с интерконнект NVIDIA ConnectX-7 (платформа Quantum-2 InfiniBand NDR).
  • 80-Гбит/с подключение Azure Networking.
  • NVMe SSD PCIe 4.0 (последовательное чтение до 12 Гбайт/с, запись — до 7 Гбайт/с).

Ниже приведены предварительные тесты производительности инстансов серий HBv4 и HX с процессорами EPYC Genoa в нескольких распространенных приложениях и областях HPC в сравнении с инстансами HBv3 прошлого поколения с процессорами Milan-X, а также усреднённым 4-летним HPC-сервером на базе Intel Xeon Skylake-SP (на примере инстансов серии Azure HC).

Инстансы Azure HBv3 с процессорами AMD EPYC Milan-X с технологией 3D V-Cache уже обеспечивают высокий уровень производительности HPC, предлагая до 27 раз лучшее масштабирование MPI-нагрузок, чем в других облаках, и превосходя многие ведущие суперкомпьютеры в мире. С внедрением серии HBv4 компания поднимает планку, предлагая лучшую поддержку для массивно-параллельных нагрузок и для нагрузок с интенсивным использование памяти и вычислений.

Инстансы Azure HBv3 также активно используется для EDA-нагрузок, но новые инстансы серии HX предлагают до 3 раз больший объём оперативной памяти, чем любая виртуальная машина серии H прошлых поколений — до 60 Гбайт RAM на ядро. Отдельно стоит отметить, что в инстансах HBv4 и HX впервые в Azure используется 400G-интерконнект NVIDIA InfiniBand NDR (Quantum-2). Инстансы с суффиксом r также предлагают поддержку RDMA, а с суффиксом s — поддержку быстрых локальных SSD.

Используя новые инстансы серии HBv4 или HX и стандартный инструмент управления набором инстансов Azure VMSS, клиенты смогут масштабировать MPI-нагрузки вплоть до уровня 50 000 CPU-ядер на задачу. HBv4 и HX скоро появятся в облачных регионах США (East US, South Central US, West US3) и Западной Европе (West Europe).

Постоянный URL: http://servernews.ru/1077648
09.11.2021 [12:17], Алексей Степин

NVIDIA представила Quantum-2, первый 400G-коммутатор InfiniBand NDR

NVIDIA, нынешний владелец Mellanox, представила обновления своих решений InfiniBand NDR: коммутаторы Quantum-2, сетевые адаптеры ConnectX-7 и ускорители DPU BlueField-3. Это весьма своевременный апдейт, поскольку 400GbE-решения набирают популярность, а с приходом PCIe 5.0 в серверный сегмент станут ещё более актуальными.

 NVIDIA Quantum-2 (Здесь и ниже изображения NVIDIA)

NVIDIA Quantum-2 (Здесь и ниже изображения NVIDIA)

Первый и самый важный анонс — это платформа Quantum-2. Новый коммутатор не только обеспечивает вдвое более высокую пропускную способность на порт (400 Гбит/с против 200 Гбит/c), но также предоставляет в три раза больше портов, нежели предыдущее поколение. Это сочетание позволяет снизить потребность в коммутаторах в 6 раз при той же суммарной ёмкости сети. При этом новая более мощная инфраструктура также окажется более экономичной и компактной.

 NVIDIA Quantum-2 (Здесь и ниже изоражения NVIDIA)

Более того, Quantum-2 относится к серии «умных» устройств и содержит в 32 раза больше акселераторов, нежели Quantum HDR первого поколения. В нём также реализована предиктивная аналитика, позволяющая избежать проблем с сетевой инфраструктурой ещё до их возникновения; за это отвечает технология UFM Cyber-AI. Также коммутатор предлагает синхронизацию времени с наносекундной точностью, что важно для распределённых нагрузок.

7-нм чип Quantum-2 содержит 57 млрд транзисторов, то есть он даже сложнее A100 с 54 млрд транзисторов. В стандартной конфигурации чип предоставляет 64 порта InfiniBand 400 Гбит/с, однако может работать и в режиме 128 × 200 Гбит/с. Коммутаторы на базе нового сетевого процессора уже доступны у всех крупных поставщиков серверного оборудования, включая Inspur, Lenovo, HPE и Dell Technologies. Возможно масштабирование вплоть 2048 × 400 Гбит/с или 4096 × 200 Гбит/с.

 NVIDIA ConnectX-7

NVIDIA ConnectX-7

Конечные устройства для новой инфраструктуры InfiniBand доступны в двух вариантах: это относительно простой сетевой адаптер ConnectX-7 и куда более сложный BlueField-3. В первом случае изменения, в основном, количественные: новый чип, состоящий из 8 млрд транзисторов, позволил вдвое увеличить пропускную способность, равно как и вдвое же ускорить RDMA и GPUDirect.

 NVIDIA BlueField-3

NVIDIA BlueField-3

DPU BlueField-3, анонсированный ещё весной этого года, куда сложнее с его 22 млрд транзисторов. Он предоставляет гораздо больше возможностей, чем обычный сетевой адаптер или SmartNIC, и крайне важен для будущего развития инфраструктурных решений NVIDIA. Начало поставок ConnectX-7 намечено на январь, а вот BlueField-3 появится только в мае 2021 года. Оба адаптера совместимы с PCIe 5.0.

Постоянный URL: http://servernews.ru/1053211
28.06.2021 [13:22], Алексей Степин

Обновление NVIDIA HGX: PCIe-вариант A100 с 80 Гбайт HBM2e, InfiniBand NDR и Magnum IO с GPUDirect Storage

На суперкомпьютерной выставке-конференции ISC 2021 компания NVIDIA представила обновление платформы HGX A100 для OEM-поставщиков, которая теперь включает PCIe-ускорители NVIDIA c 80 Гбайт памяти, InfiniBand NDR и поддержку Magnum IO с GPUDirect Storage.

В основе новинки лежат наиболее продвинутые на сегодняшний день технологии, имеющиеся в распоряжении NVIDIA. В первую очередь, это, конечно, ускорители на базе архитектуры Ampere, оснащённые процессорами A100 с производительностью почти 10 Тфлопс в режиме FP64 и 624 Топс в режиме тензорных вычислений INT8.

HGX A100 предлагает 300-Вт версию ускорителей с PCIe 4.0 x16 и удвоенным объёмом памяти HBM2e (80 Гбайт). Увеличена и пропускная способность (ПСП), в новой версии ускорителя она достигла 2 Тбайт/с. И если по объёму и ПСП новинки догнали SXM-версию A100, то в отношении интерконнекта они всё равно отстают, так как позволяют напрямую объединить посредством NVLink только два ускорителя.

В качестве сетевой среды в новой платформе NVIDIA применена технология InfiniBand NDR со скоростью 400 Гбит/с. Можно сказать, что InfiniBand догнала Ethernet, хотя не столь давно её потолком были 200 Гбит/с, а в плане латентности IB по-прежнему нет равных. Сетевые коммутаторы NVIDIA Quantum 2 поддерживают до 64 портов InfiniBand NDR и вдвое больше для скорости 200 Гбит/с, а также имеют модульную архитектуру, позволяющую при необходимости нарастить количество портов NDR до 2048. Пропускная способность при этом может достигать 1,64 Пбит/с.

Технология NVIDIA SHARP In-Network Computing позволяет компании заявлять о 32-крантом превосходстве над системами предыдущего поколения именно в области сложных задач машинного интеллекта для индустрии и науки. Естественно, все преимущества машинной аналитики используются и внутри самого продукта — технология UFM Cyber-AI позволяет новой платформе исправлять большинство проблем с сетью на лету, что минимизирует время простоя.

Отличным дополнением к новым сетевым возможностями является технология GPUDirect Storage, которая позволяет NVMe-накопителям общаться напрямую с GPU, минуя остальные компоненты системы. В качестве программной прослойки для обслуживания СХД новая платформа получила систему Magnum IO с поддержкой вышеупомянутой технологии, обладающую низкой задержкой ввода-вывода и по максимуму способной использовать InfiniBand NDR.

Три новых ключевых технологии NVIDIA помогут супервычислениям стать ещё более «супер», а суперкомпьютерам следующего поколения — ещё более «умными» и производительными. Достигнуты договорённости с такими крупными компаниями, как Atos, Dell Technologies, HPE, Lenovo, Microsoft Azure и NetApp. Решения NVIDIA используются как в индустрии — в качестве примера можно привести промышленный суперкомпьютер Tesla Automotive, так и в ряде других областей.

В частности, фармакологическая компания Recursion использует наработки NVIDIA в области машинного обучения для поиска новых лекарств, а национальный научно-исследовательский центр энергетики (NERSC) применяет ускорители A100 в суперкомпьютере Perlmutter при разработке новых источников энергии. И в дальнейшем NVIDIA продолжит своё наступление на рынок HPC, благо, она может предложить заказчикам как законченные аппаратные решения, так и облачные сервисы, также использующие новейшие технологии компании.

Постоянный URL: http://servernews.ru/1043002
Система Orphus