Материалы по тегу: hgx

14.08.2023 [21:37], Сергей Карасёв

С СЖО и без: Giga Computing (Gigabyte) выпустила новые серверы на базе Xeon Sapphire Rapids и NVIDIA HGX H100

Компания Giga Computing (Gigabyte), серверное подразделение Gigabyte, анонсировала стоечные серверы G363-SR0 и G593-SD2, выполненные в форм-факторе 3U и 5U соответственно. В основу положены процессоры Intel Xeon Sapphire Rapids и платформа NVIDIA HGX H100.

Обе новинки допускают установку двух процессоров в исполнении LGA 4677 (Socket E) с показателем TDP до 350 Вт. Диапазон рабочих температур — от 0 до +35 °C.

Модель G363-SR0 оснащена системой прямого жидкостного охлаждения (DLC). Доступны 16 слотов для модулей оперативной памяти DDR5-4800 ёмкостью до 256 Гбайт каждый. Могут быть подключены восемь SFF-накопителей NVMe/SATA/SAS с возможностью горячей замены. Поддерживаются массивы SATA RAID 0/1/10/5.

В оснащение входят по два сетевых порта 1GbE и 10GbE, выделенный порт управления 1GbE, два порта USB 3.2 Gen1 и интерфейс Mini-DP. За возможности расширения отвечают шесть слотов PCIe 5.0 x16 (два спереди, четыре сзади), коннекторы OCP 3.0 и М.2 (PCIe 4.0 x4). Задействованы четыре ускорителя NVIDIA H100 (SXM5). Установлены три блока питания мощностью 3000 Вт с сертификатом 80 PLUS Titanium.

 Источник изображений: Giga Computing

Источник изображений: Giga Computing

Сервер G593-SD2, ориентированный на задачи ИИ и НРС, располагает 32 слотами для модулей DDR5-4800 и восемью ускорителями NVIDIA H100 (SXM5). Спереди есть восемь отсеков для SFF-накопителей NVMe/SATA/SAS. Данная модель использует воздушное охлаждение и шесть блоков питания мощностью 3000 Вт с сертификатом 80 PLUS Titanium. Предусмотрены 12 слотов PCIe 5.0 x16, два сетевых порта 10GbE, выделенный порт управления 1GbE, два порта USB 3.2 Gen1 и интерфейс D-Sub.

Постоянный URL: http://servernews.ru/1091460
04.06.2023 [13:56], Сергей Карасёв

Представлен сервер ASUS ESC N8-E11 на базе Intel Xeon Sapphire Rapids и NVIDIA HGX H100

Компания ASUS анонсировала на выставке Computex 2023 сервер ESC N8-E11 в форм-факторе 7U, предназначенный для работы с генеративным ИИ и большими языковыми моделями. Новинка построена на аппаратной платформе Intel Xeon Sapphire Rapids с возможностью установки двух процессоров с показателем TDP до 350 Вт.

Система располагает 32 слотами для модулей оперативной памяти DDR5-4800/4400 суммарным объёмом до 8 Тбайт. В общей сложности доступны 10 посадочных мест для SFF-накопителей: спереди находятся восемь отсеков для устройств NVMe, сзади — два слота для изделий NVMe/SATA/SAS.

Сервер способен нести на борту до восьми ускорителей NVIDIA HGX H100. В оснащение входят двухпортовый сетевой контроллер 10GbE (Intel X710-AT2) и выделенный сетевой порт управления. Опционально может быть добавлена карта Broadcom MegaRAID 9560-16i или Broadcom MegaRAID 9540-8i. Доступны по два коннектора для твердотельных модулей M.2 PCIe 5.0 x4 и M.2 PCIe 3.0 x2. Во фронтальной части расположены четыре порта USB 3.2 Gen1, гнёзда RJ-45 для сетевых кабелей, интерфейс D-Sub.

Система ESC N8-E11 имеет габариты 885 × 447 × 306,65 мм и весит 99 кг. Питание может быть организовано по схеме 4 + 2 или 3 + 3 с блоками мощностью 3000 Вт, имеющими сертификат 80 PLUS Titanium. Сервер может использоваться в температурном диапазоне от +10 до +35 °C.

Постоянный URL: http://servernews.ru/1087872
30.05.2023 [13:38], Сергей Карасёв

Gigabyte представила сервер G593-SD0: NVIDIA HGX H100 + Intel Xeon Sapphire Rapids

Компания Gigabyte и её подразделение Giga Computing в ходе выставки Computex 2023 анонсировали сервер G593-SD0, оптимизированный для машинного обучения и задач генеративного ИИ. Новинка, выполненная в форм-факторе 5U, ориентирована на крупные дата-центры.

В сервере применена материнская плата на наборе логики Intel C741. Допускается установка двух процессоров Intel Xeon Sapphire Rapids с показателем TDP до 350 Вт. Есть 32 слота для модулей оперативной памяти DDR5-4800 суммарным объёмом до 8 Тбайт. В максимальной конфигурации могут быть задействованы восемь ускорителей NVIDIA HGX H100 (SXM5).

Во фронтальной части расположены восемь отсеков для SFF-накопителей NVMe/SATA/SAS; поддерживаются массивы RAID 0/1/10/5. В общей сложности доступны 12 слотов PCIe 5.0 x16 и один слот PCIe 4.0 x16 для низкопрофильных карт расширения. В оснащение входят контроллер Aspeed AST2600, двухпортовый сетевой адаптер 10GbE (Intel X710-AT2), выделенный сетевой порт управления (спереди и сзади), два разъёма USB 3.2 Gen1 и интерфейс D-Sub.

 Источник изображения: Gigabyte Technology

Источник изображения: Gigabyte Technology

Габариты сервера составляют 447 × 222,25 × 945 мм. Применены система воздушного охлаждения и шесть блоков питания мощностью 3000 Вт с сертификатом 80 PLUS Titanium. Диапазон рабочих температур — от +10 до +35 °C.

Постоянный URL: http://servernews.ru/1087563
23.05.2023 [18:37], Сергей Карасёв

Supermicro представила первые в отрасли серверы на базе NVIDIA HGX H100 с СЖО

Компания Supermicro анонсировала первые, по её словам, на рынке серверы на базе платформы NVIDIA HGX H100, оборудованные системой жидкостного охлаждения. Клиенты смогут выбирать между четырьмя стоечными моделями в разных форм-факторах на процессорах Intel и AMD.

В частности, представлены серверы SYS-821GE-TNHR и AS-8125GS-TNHR типоразмера 8U. В первом случае могут быть установлены два процессора Intel Xeon Sapphire Rapids с TDP до 350 Вт. Поддерживается до 8 Тбайт оперативной памяти DDR5-4800 ECC в виде 32 модулей. Вторая из этих систем рассчитана на два чипа AMD EPYC 9004 (Genoa) с TDP до 400 Вт, а объём ОЗУ стандарта DDR5-4800 ECC может достигать 6 Тбайт (24 слота).

 Источник изображений: Supermicro

Источник изображений: Supermicro

Названные модели допускают монтаж восьми ускорителей H100 SXM5. Во фронтальной части расположены 24 отсека для SFF-накопителей. Intel-версия может быть опционально оборудована двумя сетевыми портами 10GbE или 25GbE SFP28, а также двумя SSD формата M.2 NVMe. У сервера на платформе AMD есть только один коннектор M.2 NVMe. В обоих случаях задействованы блоки питания мощностью 3000 Вт с сертификатом 80 PLUS Titanium.

Кроме того, дебютировали серверы SYS-421GU-TNXR и SYS-521GU-TNXR в форм-факторе 4U и 5U соответственно. Они могут нести на борту два процессора Xeon Sapphire Rapids, до 8 Тбайт памяти DDR5-4800 ECC (32 слота), два модуля M.2 NVMe/SATA и четыре ускорителя HGX H100 SXM5. Первая из этих систем располагает шестью отсеками для SFF-накопителей NVMe/SATA, вторая — десятью. Предусмотрены два сетевых порта 10GbE. Мощность блоков питания стандарта 80 PLUS Titanium — 3000 Вт. Все новинки рассчитаны на работу в температурном диапазоне от +10 до +35 °C.

Постоянный URL: http://servernews.ru/1087215
22.03.2023 [12:32], Сергей Карасёв

В облаке Vultr появились ускорители NVIDIA H100

Частная компания Vultr, предоставляющая услуги облачных вычислений, сообщила о том, что клиентам теперь доступны ускорители NVIDIA H100 для обработки ресурсоёмких приложений, связанных с генеративным ИИ, глубоким обучением, рендерингом видео, HPC-задачами и т. п.

Воспользоваться мощностями платформы NVIDIA HGX H100 заказчики смогут в рамках сервиса IaaS. Данная облачная платформа Vultr также включает другие ускорители NVIDIA, в том числе A100, A40 и A16. Таким образом, как отмечается, корпоративные пользователи могут выбрать наиболее подходящий для себя вариант в зависимости от потребностей.

Кроме того, Vultr объявила о трёхстороннем стратегическом альянсе с платформами обработки данных и машинного обучения Anaconda Inc. и Domino Data Lab. Эта инициатива призвана помочь специалистам по анализу данных и инженерам в области машинного обучения в упрощении и ускорении реализации проектов. Говорится, что в течение всего 60 секунд клиенты смогут развернуть полноценную и безопасную среду Anaconda на платформе Domino MLOps, работающую на инфраструктуре Vultr. Это позволит заказчикам сосредоточиться на инновациях, а не на решении рабочих вопросов.

 Источник изображения: Vultr

Источник изображения: Vultr

Ускорители NVIDIA также могут быть интегрированы с широким спектром виртуализированных облачных ресурсов Vultr, серверами bare metal, управляемыми базами данных, блочными и объектными хранилищами и пр. Этот комплексный набор продуктов и услуг способен удовлетворить потребности предприятий любого размера с критически важными проектами в области ИИ и машинного обучения.

Постоянный URL: http://servernews.ru/1083806
24.05.2022 [07:00], Игорь Осколков

NVIDIA представила референсные платформы CGX, OVX и HGX на базе собственных Arm-процессоров Grace

На весенней конференции GTC 2022 NVIDIA поделилась подробностями о грядущих серверных Arm-процессорах Grace Superchip и гибридах Grace Hopper Superchip, а на Computex 2022 представила первые референсные платформы на базе этих чипов для OEM-производителей и объявила о расширении программы NVIDIA Certified.

Последнее, впрочем, не означает отказ от x86-систем, поскольку программа будет просто расширена. Да и портирование стороннего и собственного ПО займёт некоторое время. Первые несколько десятков моделей серверов от ASUS, Foxconn, GIGABYTE, QCT, Supermicro и Wiwynn появятся в первой половине 2023 года. Представлены они будут в трёх категориях, причём все, за исключением одной, базируются на «сдвоенных» процессорах Grace Superchip, насчитывающих до 144 ядер.

 Источник: NVIDIA

Источник: NVIDIA

Системы серии OVX, представленной ранее, всё так же будут предназначены для цифровых двойников и Omniverse — NVIDIA продолжает наставить на том, что любое современное производство или промышленное предприятие должно быть интеллектуальным. Arm-версия OVA получит неназванные ускорители NVIDIA и DPU Bluefield-3.

Новая платформа NVIDIA CGX очень похожа на OVX — она тоже получит DPU Bluefield-3 и до четырёх ускорителей NVIDIA A16. CGX создана специального для облачных гейминга и работы с графикой.

А вот новое поколение платформы NVIDIA HGX гораздо интереснее. Оно заметно отличается от предыдущих, которые в основном представляли собой различные комбинации базовых плат NVIDIA с четырьмя или восемью ускорителями, вокруг которых OEM-партнёры строили системы в меру своих умений и фантазий. Нынешняя инкарнация NVIDIA HGX всё же несколько более комплексная, поскольку сейчас предлагается два варианта узлов, специально спроектированных для высокоплотных систем и явно ориентированных на высокопроизводительные вычисления (HPC).

 Источник: NVIDIA

Источник: NVIDIA

Первый вариант — это 1U-лезвие (до 84 шт. в стандартной стойке), которое включает один процессор Grace Superchip, до 1 Тбайт LPDDR5x-памяти с пропускной способностью (ПСП) до 1 Тбайт/с и DPU BlueField-3. Иные варианты сетевого подключения оставлены на усмотрение конечного производителя. Заявленный уровень TDP составляет 500 Вт, так что на выбор доступны системы с воздушным и жидкостным охлаждением.

Второй вариант базируется на гибридных чипах Grace Hopper Superchip, объединяющих в себе посредством шины NVLink-C2C процессорную часть с 512 Гбайт LPDDR5x-памяти и ускоритель NVIDIA H100 c 80 Гбайт HBM3-памяти (ПСП до 3,5 Тбайт/с). Помимо DPU BlueField-3 опционально доступен и интерконнект NVLink 4.0, но и здесь вендору оставлена свобода выбора. Уровень TDP для данной платформы составляет 1 кВт, но вот обойтись одним только воздушным охлаждением (а такой вариант есть) при полном заполнении стойки всеми 42-мя 2U-лезвиями будет трудно.

Постоянный URL: http://servernews.ru/1066512
19.05.2022 [17:57], Сергей Карасёв

Gigabyte представила высокопроизводительный Arm-сервер G492-PD0: Ampere Altra + 8 × NVIDIA A100

Gigabyte анонсировала 4U-сервер G492-PD0, предназначенный для облачных платформ, систем ИИ и инфраструктур высокопроизводительных вычислений (HPC). Допускается установка одного процессора Ampere Altra (Max), насчитывающего до 128 ядер. Есть 16 слотов для модулей оперативной памяти DDR4-3200 ёмкостью до 256 Гбайт каждый. А главное — поддержка до восьми 80-Гбайт ускорителей NVIDIA A100 в составе HGX-платы Delta.

 Изображение: Gigabyte Technology

Изображение: Gigabyte Technology

Предусмотрены шесть посадочных мест для SFF-накопителей NVMe/SATA. Кроме того, могут быть задействованы четыре модуля M.2 формата 2260/2280/22110. Для всех накопителей предусмотрена поддержка PCIe 4.0, равно как и для десяти PCIe-слотов для низкопрофильных карт расширения. В оснащение входят двухпортовый сетевой контроллер 1GbE и выделенный 1GbE-порт управления для BMC ASPEED AST2500.

 Изображение: Gigabyte Technology

Изображение: Gigabyte Technology

Габариты сервера составляют 448 × 175,2 × 900 мм. Применена система воздушного охлаждения, включающая одиннадцать 80-мм вентиляторов и десять — 40-мм. Питается сервер от четырёх (3+1) БП мощностью 3 кВт каждый. Говорится о совместимости с программной платформой Ubuntu 20.04.1 LTS (ядро 5.8 или новее) и соответствии стандартам Arm SystemReady и Arm ServerReady.

Постоянный URL: http://servernews.ru/1066274
23.03.2022 [13:07], Сергей Карасёв

Supermicro объявила о полной поддержке новейших акселераторов NVIDIA

Компания Supermicro сообщила о поддержке новейших версий программного обеспечения и оборудования NVIDIA. Речь идёт о платформе Omniverse Enterprise, а также об акселераторах NVIDIA RTX A5500, платформе NVIDIA HGX A100 и ускорителях нового поколения NVIDIA H100 Tensor Core. Говорится также, что эталонная архитектура NVIDIA OVX доступна на серверах Supermicro SYS-420GP-TNR с GPU NVIDIA A40.

«Предлагаемый компанией Supermicro ассортимент серверов и рабочих станций разработан с учётом преимуществ пакета программного обеспечения NVIDIA AI Enterprise и платформы Omniverse Enterprise и позволяет специалистам беспрепятственно и более эффективно выполнять совместную работу», — отмечает Supermicro.

 Источник изображения: Supermicro

Источник изображения: Supermicro

Для осуществления реалистичного моделирования на базе Omniverse Enterprise могут применяться такие аппаратные решения Supermicro, как SuperWorkstation 5014A-TT A+, SYS-540A-TR и SuperServer SYS-420GP-TNR. Серверы и рабочие станции Supermicro, сертифицированные компанией NVIDIA, проходят проверку на соответствие требованиям к инфраструктуре с ускорением на базе графических процессоров, способной справляться с разнообразным набором задач.

Постоянный URL: http://servernews.ru/1062566
22.03.2022 [18:40], Игорь Осколков

NVIDIA анонсировала 4-нм ускорители Hopper H100 и самый быстрый в мире ИИ-суперкомпьютер EOS на базе DGX H100

На GTC 2022 компания NVIDIA анонсировала ускорители H100 на базе новой архитектуры Hopper. Однако NVIDIA уже давно говорит о себе как создателе платформ, а не отдельных устройств, так что вместе с H100 были представлены серверные Arm-процессоры Grace, в том числе гибридные, а также сетевые решения и обновления наборов ПО.

 NVIDIA H100 (Изображения: NVIDIA)

NVIDIA H100 (Изображения: NVIDIA)

NVIDIA H100 использует мультичиповую 2.5D-компоновку CoWoS и содержит порядка 80 млрд транзисторов. Но нет, это не самый крупный чип компании на сегодняшний день. Кристаллы новинки изготавливаются по техпроцессу TSMC N4, а сопровождают их — впервые в мире, по словам NVIDIA — сборки памяти HBM3 суммарным объёмом 80 Гбайт. Объём памяти по сравнению с A100 не вырос, зато в полтора раза увеличилась её скорость — до рекордных 3 Тбайт/с.

 NVIDIA H100 (SXM)

NVIDIA H100 (SXM)

Подробности об архитектуре Hopper будут представлены чуть позже. Пока что NVIDIA поделилась некоторыми сведениями об особенностях новых чипов. Помимо прироста производительности от трёх (для FP64/FP16/TF32) до шести (FP8) раз в сравнении с A100 в Hopper появилась поддержка формата FP8 и движок Transformer Engine. Именно они важны для достижения высокой производительности, поскольку само по себе четвёртое поколение ядер Tensor Core стало втрое быстрее предыдущего (на всех форматах).

 NVIDIA H100 CNX (PCIe)

NVIDIA H100 CNX (PCIe)

TF32 останется форматом по умолчанию при работе с TensorFlow и PyTorch, но для ускорения тренировки ИИ-моделей NVIDIA предлагает использовать смешанные FP8/FP16-вычисления, с которыми Tensor-ядра справляются эффективно. Хитрость в том, что Transformer Engine на основе эвристик позволяет динамически переключаться между ними при работе, например, с каждым отдельным слоем сети, позволяя таким образом добиться повышения скорости обучения без ущерба для итогового качества модели.

На больших моделях, а именно для таких H100 и создавалась, сочетание Transformer Engine с другими особенностями ускорителей (память и интерконнект) позволяет получить девятикратный прирост в скорости обучения по сравнению с A100. Но Transformer Engine может быть полезен и для инференса — готовые FP8-модели не придётся самостоятельно конвертировать в INT8, движок это сделает на лету, что позволяет повысить пропускную способность от 16 до 30 раз (в зависимости от желаемого уровня задержки).

Другое любопытное нововведение — специальные DPX-инструкции для динамического программирования, которые позволят ускорить выполнение некоторых алгоритмов до 40 раз в задачах, связанных с поиском пути, геномикой, квантовыми системами и при работе с большими объёмами данных. Кроме того, H100 получили дальнейшее развитие виртуализации. В новых ускорителях всё так же поддерживается MIG на 7 инстансов, но уже второго поколения, которое привнесло больший уровень изоляции благодаря IO-виртуализации, выделенным видеоблокам и т.д.

Так что MIG становится ещё более предпочтительным вариантом для облачных развёртываний. Непосредственно к MIG примыкает и технология конфиденциальных вычислений, которая по словам компании впервые стала доступна не только на CPU. Программно-аппаратное решение позволяет создавать изолированные ВМ, к которым нет доступа у ОС, гипервизора и других ВМ. Поддерживается сквозное шифрование при передаче данных от CPU к ускорителю и обратно, а также между ускорителями.

Память внутри GPU также может быть изолирована, а сам ускоритель оснащается неким аппаратным брандмауэром, который отслеживает трафик на шинах и блокирует несанкционированный доступ даже при наличии у злоумышленника физического доступа к машине. Это опять-таки позволит без опаски использовать H100 в облаке или в рамках колокейшн-размещения для обработки чувствительных данных, в том числе для задач федеративного обучения.


NVIDIA HGX H100

Но главная инновация — это существенное развитие интерконнекта по всем фронтам. Суммарная пропускная способность внешних интерфейсов чипа H100 составляет 4,9 Тбайт/с. Да, у H100 появилась поддержка PCIe 5.0, тоже впервые в мире, как утверждает NVIDIA. Однако ускорители получили не только новую шину NVLink 4.0, которая стала в полтора раза быстрее (900 Гбайт/с), но и совершенно новый коммутатор NVSwitch, который позволяет напрямую объединить между собой до 256 ускорителей! Пропускная способность «умной» фабрики составляет до 70,4 Тбайт/с.

Сама NVIDIA предлагает как новые системы DGX H100 (8 × H100, 2 × BlueField-3, 8 × ConnectX-7), так и SuperPOD-сборку из 32-х DGX, как раз с использованием NVLink и NVSwitch. Партнёры предложат HGX-платформы на 4 или 8 ускорителей. Для дальнейшего масштабирования SuperPOD и связи с внешним миром используются 400G-коммутаторы Quantum-2 (InfiniBand NDR). Сейчас NVIDIA занимается созданием своего следующего суперкомпьютера EOS, который будет состоять из 576 DGX H100 и получит FP64-производительность на уровне 275 Пфлопс, а FP16 — 9 Эфлопс.

Компания надеется, что EOS станет самой быстрой ИИ-машиной в мире. Появится она чуть позже, как и сами ускорители, выход которых запланирован на III квартал 2022 года. NVIDIA представит сразу три версии. Две из них стандартные, в форм-факторах SXM4 (700 Вт) и PCIe-карты (350 Вт). А вот третья — это конвергентный ускоритель H100 CNX со встроенными DPU Connect-X7 класса 400G (подключение PCIe 5.0 к самому ускорителю) и интерфейсом PCIe 4.0 для хоста. Компанию ей составят 400G/800G-коммутаторы Spectrum-4.

Постоянный URL: http://servernews.ru/1062434
27.02.2022 [14:35], Алексей Степин

GIGABYTE G262-ZL0 и G492-ZL2: NVIDIA HGX A100 с жидкостным охлаждением

Несмотря на то, что позиции классического воздушного охлаждения в мощных серверах ещё достаточно сильны, всё чаще и чаще выпускаются варианты, рассчитанные изначально под охлаждение жидкостное. Особенно это актуально с учётом того, что плотности упаковки вычислительных мощностей растут и отводить нагрев от многочисленных ускорителей становится всё сложнее. Два новых сервера GIGABYTE, G262-ZL0 и G492-ZL2, изначально рассчитаны на подключение к контурам СЖО в ЦОД.

Новинки подходят для формирования HPC-систем, комплексов машинного обучения, аналитики «больших данных» и вообще для любых задач. Оба сервера рассчитаны используют платформу NVIDIA HGX с SXM4-ускорителеями A100 (80 Гбайт). В первой модели высотой 2U таких ускорителя четыре, во второй, более габаритной (4U) — восемь. Используются процессоры AMD EPYC 7003 (Milan), поддерживаются технологии NVLink и NVSwitch (для G492-ZL2).

Дополнительно предусмотрены низкопрофильные слоты расширения: пять у G262-ZL0 и десять у G492-ZL2, кроме того, младшая модель имеет и слот для установки карт OCP 3.0. Заявлена поддержка 400G-адаптеров NVIDIA/Mellanox ConnectX-7. Подсистема хранения данных представлена четырьмя и шестью отсеками U.2 NVMe/SATA соответственно.

СЖО, применённая в новых серверах GIGABYTE, разработана в сотрудничестве с CoolIT Systems. Контуры охлаждения центральных процессоров и графических ускорителей NVIDIA разделены; последние используют фитинги и шланги большего диаметра, поскольку основная тепловая нагрузка придётся именно на ускорители. Соответствует и подсистема питания: это два блока питания мощностью 3 кВт у модели высотой 2U и целых четыре (3+1) таких блока у 4U-модели.

Постоянный URL: http://servernews.ru/1061015
Система Orphus