Материалы по тегу: hgx

28.06.2021 [13:22], Алексей Степин

Обновление NVIDIA HGX: PCIe-вариант A100 с 80 Гбайт HBM2e, InfiniBand NDR и Magnum IO с GPUDirect Storage

На суперкомпьютерной выставке-конференции ISC 2021 компания NVIDIA представила обновление платформы HGX A100 для OEM-поставщиков, которая теперь включает PCIe-ускорители NVIDIA c 80 Гбайт памяти, InfiniBand NDR и поддержку Magnum IO с GPUDirect Storage.

В основе новинки лежат наиболее продвинутые на сегодняшний день технологии, имеющиеся в распоряжении NVIDIA. В первую очередь, это, конечно, ускорители на базе архитектуры Ampere, оснащённые процессорами A100 с производительностью почти 10 Тфлопс в режиме FP64 и 624 Топс в режиме тензорных вычислений INT8.

HGX A100 предлагает 300-Вт версию ускорителей с PCIe 4.0 x16 и удвоенным объёмом памяти HBM2e (80 Гбайт). Увеличена и пропускная способность (ПСП), в новой версии ускорителя она достигла 2 Тбайт/с. И если по объёму и ПСП новинки догнали SXM-версию A100, то в отношении интерконнекта они всё равно отстают, так как позволяют напрямую объединить посредством NVLink только два ускорителя.

В качестве сетевой среды в новой платформе NVIDIA применена технология InfiniBand NDR со скоростью 400 Гбит/с. Можно сказать, что InfiniBand догнала Ethernet, хотя не столь давно её потолком были 200 Гбит/с, а в плане латентности IB по-прежнему нет равных. Сетевые коммутаторы NVIDIA Quantum 2 поддерживают до 64 портов InfiniBand NDR и вдвое больше для скорости 200 Гбит/с, а также имеют модульную архитектуру, позволяющую при необходимости нарастить количество портов NDR до 2048. Пропускная способность при этом может достигать 1,64 Пбит/с.

Технология NVIDIA SHARP In-Network Computing позволяет компании заявлять о 32-крантом превосходстве над системами предыдущего поколения именно в области сложных задач машинного интеллекта для индустрии и науки. Естественно, все преимущества машинной аналитики используются и внутри самого продукта — технология UFM Cyber-AI позволяет новой платформе исправлять большинство проблем с сетью на лету, что минимизирует время простоя.

Отличным дополнением к новым сетевым возможностями является технология GPUDirect Storage, которая позволяет NVMe-накопителям общаться напрямую с GPU, минуя остальные компоненты системы. В качестве программной прослойки для обслуживания СХД новая платформа получила систему Magnum IO с поддержкой вышеупомянутой технологии, обладающую низкой задержкой ввода-вывода и по максимуму способной использовать InfiniBand NDR.

Три новых ключевых технологии NVIDIA помогут супервычислениям стать ещё более «супер», а суперкомпьютерам следующего поколения — ещё более «умными» и производительными. Достигнуты договорённости с такими крупными компаниями, как Atos, Dell Technologies, HPE, Lenovo, Microsoft Azure и NetApp. Решения NVIDIA используются как в индустрии — в качестве примера можно привести промышленный суперкомпьютер Tesla Automotive, так и в ряде других областей.

В частности, фармакологическая компания Recursion использует наработки NVIDIA в области машинного обучения для поиска новых лекарств, а национальный научно-исследовательский центр энергетики (NERSC) применяет ускорители A100 в суперкомпьютере Perlmutter при разработке новых источников энергии. И в дальнейшем NVIDIA продолжит своё наступление на рынок HPC, благо, она может предложить заказчикам как законченные аппаратные решения, так и облачные сервисы, также использующие новейшие технологии компании.

Постоянный URL: http://servernews.ru/1043002
19.02.2021 [15:15], Сергей Карасёв

Мощь и компактность: HGX-сервер GIGABYTE G262-ZR0 имеет высоту всего 2U

Компания GIGABYTE Technology представила сервер G262-ZR0, предназначенный для решения задач в области ИИ и аналитики данных, а также для построения систем высокопроизводительных вычислений. Новинка использует платформу NVIDIA HGX A100 4-GPU, объединяющую графические ускорители NVIDIA A100, которые связаны высокоскоростным интерфейсом NVLink.

Общая вычислительная нагрузка возложена на два процессора AMD EPYC 7002 (плата MZ62-HD5), каждый из которых может содержать до 64 ядер. Для модулей оперативной памяти доступны 16 слотов: в системе можно задействовать до 4 Тбайт ОЗУ типа DDR4-3200. Предусмотрена возможность установки четырёх 2,5-дюймовых накопителей U.2 NVMe или SATA, а также двух твердотельных модулей M.2 посредством райзер-карты.

Ещё один слот M.2 есть на материнской плате. Также есть один мезонин OCP 3.0 PCI 4.0 x16 и два слота PCI 4.0 x16 во фронтальной части. Все они берует линии непосредственно у процессоров. Ещё четыре слота PCI 4.0 x16 в задней части подключены посредством коммутаторов Broadcom PEX88096. Все слоты рассчитаны на низкопрофильные карты расширения.

Присутствуют два сетевых порта 1GbE LAN на базе контроллера Intel I350-AM2, а также выделенный сетевой порт управления для BMC Aspeed AST2500. Питание обеспечивают два блока с сертификацией 80 PLUS Platinum мощностью 3000 Вт каждый.

На фронтальную панель, помимо гнёзд для сетевых кабелей, выведены два разъёма USB 3.0, а также интерфейс mini-DP. Сервер выполнен в формате 2‎U с габаритами 448 × 86,4 × 760 мм. Подробные характеристики новинки доступны здесь.

Постоянный URL: http://servernews.ru/1033027
03.12.2020 [15:31], Сергей Карасёв

GIGABYTE выпустила сервер G492-ZD0 на базе NVIDIA HGX A100 для ИИ и HPC

Компания GIGABYTE Technology официально представила сервер G492-ZD0 на базе платформы NVIDIA HGX A100 8-GPU. Новинка предназначена для формирования систем высокопроизводительных вычислений (HPC), а также комплексов для аналитики больших данных и поддержания работы приложений искусственного интеллекта (ИИ).

Сервер выполнен в формате 4‎U на материнской плате MZ52-G40. Допускается установка двух процессоров AMD EPYC 7002, каждый из которых может содержать до 64 вычислительных ядер (до 128 потоков инструкций).

Для модулей оперативной памяти DDR4-3200/2933 доступны 32 слота: суммарный объём ОЗУ может достигать 8 Тбайт. Доступны отсеки для восьми 2,5-дюймовых накопителей U.2 NVMe/SATA с возможностью «горячей» замены.

Новинка располагает восемью разъёмами SXM4 для GPU NVIDIA A100. Кроме того, есть восемь слотов для низкопрофильных карт расширения PCIe 4.0 x16.

Сервер оснащён двумя сетевыми портами 10GbE и дополнительным портом управления 1GbE. Подсистема питания объединяет четыре блока с сертификацией 80 PLUS Platinum мощностью 3000 Вт.

Постоянный URL: http://servernews.ru/1026945
30.11.2020 [14:14], Сергей Карасёв

Новые GPU-серверы ASRock Rack выполнены на платформе AMD EPYC 7002

Компания ASRock Rack анонсировала серверы 3U4X-ROME/2T и 7U8X-ROME2/2T, предназначенные для построения систем высокопроизводительных вычислений на основе графических ускорителей. Обе новинки выполнены на платформе AMD с возможностью установки двух процессоров EPYC 7002.

Модель 3U4X-ROME/2T соответствует типоразмеру 3U. Доступны восемь слотов для модулей оперативной памяти DDR4-3200/2933. Система может быть оборудована двумя 2,5-дюймовыми накопителями NVMe, а также восемью SATA-устройствами — по четыре форматов 2,5 и 3,5 дюйма. Поддерживается архитектура NVIDIA HGX A100 на базе четырёх GPU. В оснащение входят два блока питания 80 PLUS Platinum мощностью 3000 Вт.

Вариант 7U8X-ROME2/2T стандарта 7U предоставляет 32 разъёма для модулей памяти DDR4-3200. Поддерживается использование до 16 твердотельных накопителей в виде карт AIC NVMe. Реализована поддержка NVIDIA HGX A100 для восьми GPU. Питание обеспечивают четыре блока 80 PLUS Platinum на 3000 Вт.

Оба сервера снабжены двумя сетевыми портами 10GbE на основе контроллера Intel X550. Младшая версия предоставляет слот PCIe 4.0 x16 для низкопрофильной карты расширения.

Постоянный URL: http://servernews.ru/1026623
11.05.2017 [10:00], Иван Грудцын

Эра NVIDIA Volta началась с ускорителя Tesla V100

На конференции GTC 2017 в американском городе Сан-Хосе компания NVIDIA в лице её генерального директора Дженсена Хуанга (Jen-Hsun Huang) представила ускоритель Tesla V100 для дата-центров на основе графического процессора Volta GV100. Разработка последнего обошлась NVIDIA в $3 млрд, и в результате свет увидел чип площадью 815 мм², содержащий 21,1 млрд транзисторов, более 5000 потоковых процессоров и новые блоки Tensor, повышающие производительность GPU в так называемых матричных вычислениях. Изготовление ядер GV100 было поручено давнему партнёру NVIDIA — тайваньскому полупроводниковому гиганту TSMC. Техпроцесс выпуска — 12-нм FFN. Последняя буква в аббревиатуре FFN обозначает не что иное, как «NVIDIA»: технологическая норма разрабатывалась с учётом требований заказчика.

Tesla V100

Tesla V100

Из года в год сложность архитектуры кремниевых кристаллов для HPC-задач продолжает расти, и теперь, с дебютом NVIDIA Volta, остаётся констатировать, что помимо потоковых процессоров, кеш-памяти первого и второго уровней, текстурных блоков, контроллеров VRAM и системного интерфейса, частью high-end GPU становятся блоки Tensor. У GV100 их по 8 на мультипроцессорный кластер (SM) и 672 в целом.

SM-блок Volta GV100

SM-блок Volta GV100

Матричные вычисления в блоках Tensor увеличивают производительность нового ядра в задачах машинного обучения до 120 Тфлопс. В то же время быстродействие GV100 в FP32-вычислениях составляет 15 Тфлопс, а в FP64-вычислениях — 7,5 Тфлопс.

Ядро Volta GV100

Volta GV100

Ядро Volta GV100 неотделимо от буферной памяти — четырёх микросхем HBM2, взаимодействующих с GPU по 4096-битной шине. Объём каждого чипа составляет 4 Гбайт, пропускная способность подсистемы памяти — 900 Гбайт/с. Кристалл GV100 дебютирует одновременно с ускорителем Tesla V100, являясь его основой. В V100 ядро работает на частоте до 1455 МГц (с учётом динамического разгона) обеспечивая вышеуказанную производительность в FP32-, FP64- и матричных (Tensor) вычислениях. Адаптер с GPU впечатляющих размеров потребляет умеренные 300 Вт — столько же, сколько и Tesla P100.

Спецификации ускорителей NVIDIA Tesla разных лет

Спецификации ускорителей NVIDIA Tesla разных лет

Вычислительные возможности Volta GV100

Вычислительные возможности Volta GV100

По эскизу в начале данной заметки можно было догадаться, что соединение Tesla V100 с такими же ускорителями и центральным процессором обеспечивает интерфейс типа NVLink. В этот раз это не интерфейс первого поколения, а NVLink 2.0 — соответствующие контакты находятся на тыльной поверхности карты. В Tesla V100 реализовано шесть двунаправленных 25-Гбайт соединений (суммарно 300 Гбайт/с), а также функция согласования содержимого кеш-памяти с кешем центрального процессора IBM POWER9.

Распространение новых HPC-ускорителей будет осуществляться по межкорпоративным (B2B) каналам. При этом заказчики получат свободный выбор между готовыми решениями вкупе с сопутствующим программным обеспечением и технической поддержкой. Все три системы — DGX-1, HGX-1 и DGX Station — предназначены для решения задач, связанных с развитием искусственного интеллекта (AI).

С системой глубинного обучения NVIDIA DGX-1 первого поколения мы уже знакомили читателей — она использует восемь ускорителей Tesla P100 с производительностью 170 Тфлопс в вычислениях половинной точности (FP16). Обновлённый сервер DGX-1 содержит восемь карт Tesla V100 с быстродействием 960 Тфлопс (FP16), два центральных процессора Intel Xeon и блок(-и) питания суммарной мощностью не менее 3200 Вт. Такой апгрейд позволяет выполнять не только типичные задачи в области исследования AI, но и переходить к новым, целесообразность решения которых прежде была под вопросом ввиду высокой сложности вычислений.

Предварительный заказ системы NVIDIA DGX-1 второго поколения обойдётся всем желающим в $149 000. Ориентировочный срок начала поставок — третий квартал текущего года.

Сервер HGX-1 на восьми ускорителях Tesla V100 аналогичен DGX-1. Ключевое отличие данной системы заключается в применении жидкостного охлаждения компонентов. Кроме того, NVIDIA HGX-1 проще внедрить с ИТ-инфраструктуру компаний. Помимо глубинного обучения, этот сервер может использоваться в экосистеме GRID, а также для решения широкого круга HPC-задач.

NVIDIA HGX

NVIDIA DGX Station представляет собой высокопроизводительную рабочую станцию с четырьмя картами Tesla V100, центральным процессором Intel Xeon, системой жидкостного охлаждения и 1500-ваттным источником питания. Ускорители NVIDIA в составе DGX Station оснащены интерфейсом NVLink 200 Гбайт/с и тремя разъёмами DisplayPort с поддержкой разрешения 4K.

В матричных Tensor-вычислениях  DGX Station обеспечивает быстродействие на уровне 480 Тфлопс. Стоимость рабочей станции для рынка США равна $69 000.

Постоянный URL: http://servernews.ru/952008
Система Orphus