Материалы по тегу: h100

20.09.2022 [19:45], Сергей Карасёв

NVIDIA начала массовый выпуск ускорителей H100

Компания NVIDIA сообщила о начале серийного выпуска 4-нм ускорителей H100 (Hopper). Партнёры начнут предлагать решения на базе данной архитектуры в следующем месяце. NVIDIA H100 использует мультичиповую 2.5D-компоновку CoWoS и содержит около 80 млрд транзисторов.

Сочетание NVlink четвёртого поколения, обеспечивающее соединение между графическими процессорами со скоростью 900 Гбайт/с, системы NVSwitch, ускоряющей коллективную связь ускорителей между узлами, PCIe 5.0 и ПО NVIDIA Magnum IO обеспечивает эффективную масштабируемость как для небольших предприятий, так и для крупных унифицированных кластеров.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

По словам NVIDIA, новые ускорители по сравнению с ускорителями прошлого поколения в 3,5 раза энергоэффективнее и позволяют втрое снизить совокупную стоимость владения, попутно позволяя впятеро снизить количество серверных узлов для получения того же уровня ИИ-производительности. Более подробно ознакомиться с архитектурными особенностями новинок можно здесь.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Инстансы на базе H100 намерены развернуть многие облачные платформы. Это Amazon Web Services, Google Cloud, Microsoft Azure и Oracle Cloud. А для тех, кому не терпится ознакомиться с новинками уже прямо сейчас, доступ к ним можно получить уже сейчас в рамках NVIDIA Launchpad. Ускорители будут применяться и в суперкомпьютерах следующего поколения.

Серверы с этими решениями будут предлагать Atos, Cisco, Dell Technologies, Fujitsu, Gigabyte, Hewlett Packard Enterprise, Lenovo и Supermicro. До конца на рынке появится более 50 моделей серверов с новыми ускорителями, а в следующем году будут представлены ещё несколько десятков решений. Кроме того, вместе с серверами будет давать и пятилетняя подписка на NVIDIA AI Enterprise. А сама NVIDIA уже принимает заказы на системы DGX.

Постоянный URL: http://servernews.ru/1074521
14.09.2022 [14:28], Сергей Карасёв

Supermicro представила GPU-сервер для ресурсоёмких ИИ-задач: 8U-шасси для восьми ускорителей NVIDIA

Компания Supermicro анонсировала GPU-сервер в форм-факторе 8U на базе акселераторов NVIDIA H100. Новинка предназначена для выполнения разнообразных задач, требующих высокой вычислительной мощности: это могут быть приложения на базе искусственного интеллекта (ИИ), системы машинного обучения и пр.

Сервер (пока доступна только модель SuperServer SYS-820GP-TNAO) построен на платформе Universal GPU с возможностью использования нынешних и будущих процессоров AMD и Intel. Могут применяться CPU с показателем TDP до 400 Вт. В текущем варианте доступны два чипа Intel Xeon Ice Lake-SP. Допускается установка HGX-платы с восемью SXM-ускорителями NVIDIA A100/H100 с NVLink (NVSwitch).

 Источник изображений: Supermicro

Источник изображений: Supermicro

Доступны 32 слота для модулей DDR4-3200/2933/2666 (L)RDIMM ECC и Optane PMem, а максимально поддерживаемый объём памяти составляет 8 Тбайт. Есть шесть отсеков для SFF-накопителей NVMe/SATA/SAS с возможностью «горячей» замены и два коннектора для твердотельных модулей М.2 (NVMe / SATA). Реализована поддержка AIOM/OCP 3.0, но опционально можно установить два двухпортовых 10GbE-адаптера Intel X550-AT2. Предусмотрены десять слотов PCIe 4.0 x16 для низкопрофильных карт расширения.

Разработчик выделяет усовершенствованную конструкцию шасси с оптимизацией воздушных потоков. Это позволяет уменьшить скорость вращения вентиляторов, что обеспечивает снижение уровня шума, а также сокращение энергопотребления и совокупной стоимости владения при сохранении высокого уровня производительности. В системе охлаждения задействованы четыре вентилятора.

Питание обеспечивает один БП мощностью 6000 Вт (ввод +12 В DC), причём система может быть интегрирована как в традиционную инфраструктуру с AC-питанием, так и в OCP-стойки. Диапазон рабочих температур — от +10 до +35 °C. Габариты составляют 351 × 449 × 800 мм, вес — 75,3 кг.

Постоянный URL: http://servernews.ru/1074148
28.08.2022 [16:25], Алексей Степин

NVIDIA поделилась подробностями об ускорителях H100 на базе архитектуры Hopper

На конференции Hot Chips 34 NVIDIA поделилась новыми подробностями о грядущих ускорителях H100 на базе архитектуры Hopper. Чип GH100 содержит 80 млрд транзисторов и производится с использованием специально оптимизированного для нужд NVIDIA техпроцесса TSMC N4, созданного в содружестве с NVIDIA. Ускоритель первым в мире получит память HBM3.

В составе чипа есть сразу 144 потоковых мультипроцессоров (SM), что несколько больше, нежели в A100, где таких блоков физически 128. Активных блоков же всего 132, но NVIDIA заявляет о вдвое более высокой производительности новых SM при сравнении с прошлым поколением при равной частоте. Это относится как к модулям FP32, так и FP64 FMA. В дополнение появилась поддержка формата FP8, всё чаще встречающегося в сценариях машинного обучения, не требующих высокой точности вычислений.

Здесь и далее источник изображений: NVIDIA via ServeTheHome

В этом режиме NVIDIA поддержала оба наиболее распространённых формата FP8: E5M2 и E4M3, то есть представление числа в форме 5 или 4 бита экспоненту и 2 или 3 бита на мантиссу соответственно. Каждый тензорный блок FP8 обеспечивает перемножение двух матриц в формате FP8 с дальнейшим накоплением и преобразованием результата, но самое важное здесь то, что благодаря наличию нового блока Transformer Engine выбор наиболее подходящего варианта FP8 осуществляется автоматически. Если верить NVIDIA, усовершенствованная архитектура тензорных процессоров с поддержкой FP8 позволяет добиться точности, сопоставимой с FP16, но при вдвое более высокой производительности и вдвое меньшем расходе памяти.

Всего каждом блоке SM имеется 128 модулей FP32, по 64 модуля INT32 и FP64 и по 4 тензорных ядра, а также тензорный ускоритель работы с памятью и общий L1-кеш объёмом 256 Кбайт. Объём L2-кеша составляет целых 50 Мбайт. В текущей реализации доступно 16896 CUDA-ядер из 18432 возможных и 528 тензорных ядер из 576. Вдвое быстрее, по словам NVIDIA, стали и новые модули тензорных вычислений, относящиеся уже к четвертому поколению. Внедрена поддержка нового набора инструкций DPX, появилась поддержка асинхронности при перемещении данных и т.д.

До второго поколения подросла технология MIG (Multi-instance GPU). Теперь на каждый такой виртуальный ускоритель стало приходиться в три раза больше вычислительных мощностей и в два раза — пропускной способности памяти. Последнее достигнуто благодаря применению HBM3. В данном варианте применены сборки HBM3 объёмом 16 Гбайт каждая (5120-бит шина). Пять сборок дают 80 Гбайт локальной памяти с ПСП 3 Тбайт/с. Посадочных мест для сборок шесть, но одно используется только для выравнивания высоты чипа

При этом виртуализация у GH100 полная, насколько это вообще возможно: обеспечена поддержка доверенных вычислений на аппаратном уровне, включая специализированные блоки брандмауэров, обеспечивающих изоляцию регионов памяти каждого vGPU, а также блоки проверки целостности и поддержки конфиденциальности данных. О поддержке нового поколения интерконнекта NVLink 4 мы рассказывали ранее — этот интерфейс даёт до 900 Гбайт/с для объединения нескольких чипов и ускорителей, но, главное, предоставляет гибкие возможности масштабирования.

Имеется у GH100 и ещё одно важное нововведение — модифицированная иерархия памяти. Так, интерконнект SM-to-SM позволяет каждым четырём SM общаться между собой напрямую, а не загружать излишними транзакциями общую шину. Это повышает эффективности при виртуализации и серьёзно экономит пропускную способность «главных трактов» ускорителя. Вкупе с поддержкой асинхронного исполнения и обмена данными это позволит снизить латентность, в некоторых случаях до семи раз.

Реализует ли NVIDIA потенциал GH100 полностью, на данный момент неясно, но это могло бы повысить и без того серьёзный потенциал новинки. Впрочем, такая мощь даром не даётся: даже в усечённой версии и даже несмотря на использование оптимизированного техпроцесса ускоритель на базе GH100 в формате SXM5 (плата PG520) будет иметь теплопакет 700 Вт.

Несомненно, GH100 —огромный шаг вперёд в сравнении с GA100, однако конкуренция предстоит серьёзная: так, новинке предстоит сразиться с ускорителями на базe Intel Ponte Vecchio, а в них обещается соотношение FP32/FP64 на уровне 1:1 против 2:1 у решения NVIDIA. Любопытный факт: единственный кластер GPC у нового чипа на 20% мощнее всего чипа GK110 Kepler, выпущенного всего 10 лет назад.

Постоянный URL: http://servernews.ru/1073047
26.06.2022 [15:47], Алексей Степин

Основой суперкомпьютера MareNostrum-5 всё же станут процессоры Intel Xeon Sapphire Rapids и ускорители NVIDIA H100

Евросоюз явно отстаёт в гонке экзафлопсных суперкомпьютеров, а у одного из крупнейших проектов, MareNostrum-5, сложная судьба — строительство системы постоянно откладывалось. Не столь давно, наконец-то, процесс возобновился, главным поставщиком стала Atos с её новой платформой BullSequana XH3000, причём в составе машины будут использоваться новые Arm-чипы NVIDIA Grace. Но, как выяснил ресурс The Next Platform, основой суперкомпьютера будут вовсе не они. Да и подрядчик в проекте тоже не один.

 Изображение: BSC

Изображение: BSC

Пиковая FP64-производительность составит 314 Пфлопс в HPL, а устоявшаяся — 205 Пфлопс. Однако почти ⅘ из них (163 Пфлопс) обеспечат узлы XH3000 с двумя процессорами Intel Xeon Sapphire Rapids и четырьмя ускорителями NVIDIA H100. В пике они дадут до 270 Пфлопс в FP64, а в вычислениях с пониженной точностью — как раз обещанные 18 Эфлопс. Ещё один кластер будет состоять из узлов Lenovo ThinkSystem SD650 V3, содержащих только CPU Sapphire Rapids, которые суммарно дадут ещё 36 Пфлопс.

 Изображение: BSC

Изображение: BSC

Третий кластер получит следующие поколения процессоров Intel Xeon — Emerald Rapids — и ускорителей Xe Rialto Bridge. Но этот раздел совсем невелик — на него придётся всего 2% мощностей MareNostrum-5, т.е. около 4 Пфлопс. Наконец, самую меньшую долю составят спарки NVIDIA Grace, развивать они будут всего около 2 Пфлопс, менее 1% запланированной мощности системы в Linpack. Два вышеописанных кластера описываются как экспериментальные.

А вот сведения о подсистемах хранения данных изначально были опубликованы верные. Систему объединит 400G-сеть InfiniBand NDR (Quantum-2), для хранения «горячих данных» будет применен кластер IBM Elastic Storage Server с файловой системой Spectrum Scale объёмом более 200 Пбайт. Архивное хранилище, тоже от IBM, будет иметь объём 400 Пбайт. Остаётся надеяться, что более задержек не будет, а имеющиеся проблемы с началом массового производства чипов Sapphire Rapids будут успешно решены.

Постоянный URL: http://servernews.ru/1068814
08.06.2022 [15:20], Алексей Степин

NVIDIA выбрала процессоры Intel Xeon Sapphire Rapids для своих топовых систем DGX H100

В популярных ныне HPC-системах ведущую роль в обеспечении производительности зачастую играют ускорители, располагающие огромными массивами универсальных вычислительных ядер. Однако все их надо вовремя «кормить» данными, и здесь на первый план выходит пропускная способность интерконнекта. В своё время NVIDIA для DGX A100 выбрала AMD EPYC, единственные массовые на тот момент CPU с поддержкой PCI Express 4.0.

Однако Intel удалось, наконец, справиться с технологическим отставанием по этой части, так что процессоры Xeon поколения Sapphire Rapids получили не только новые расширения, но и поддержку PCI Express 5.0/CXL. И это, возможно, одна из основных причин, по которой корпорация NVIDIA на конференции BofA Securities 2022 объявила о том, что новая система DGX H100 будет использовать именно Sapphire Rapids, а не AMD EPYC Genoa, хотя дизайн системных плат прорабатывался и для этого процессора.

 DGX H100. Источник: NVIDIA

DGX H100. Источник: NVIDIA

Новинка должна увидеть свет в конце этого года, она получит два процессора Xeon Sapphire Rapids, 2 Тбайт системной памяти и 8 ускорителей NVIDIA H100 на базе архитектуры Hopper, объединённых четвёртым поколением интерконнекта NVLink. Общий объём пула HBM3-памяти ускорителей составит 640 Гбайт, чего достаточно для достаточно серьёзных моделей машинного обучения; производительность же в типичном для этого режиме FP8 составит 32 Пфлопс.

Для загрузки машина получит пару NVMe-накопителей объёмом 1,9 Тбайт каждый, встроенное хранилище данных будет состоять из 8 дисков NVMe U.2 объёмом по 3,84 Тбайт. Сетевая часть также достаточно любопытна: только для управления DGX H100 имеет порт 10GbE (50GbE опционально), основная же сетевая часть представлена 400G-адаптерами ConnectX-7 и DPU BlueField-3.

 Источник: Intel

Источник: Intel

Глава корпорации, Дженсен Хуанг (Jensen Huang) также отметил, что NVIDIA продолжит поддержку процессоров с архитектурой x86, в том числе, и для новых суперкомпьютеров, несмотря на разработку собственной серии Arm-процессоров Grace (Hopper). Эти чипы также используют NVLink 4.0 с пропускной способностью 900 Гбайт/с и используются в платформе HGX.

Однако Intel Sapphire Rapids заслужил отдельной похвалы за «великолепную производительность в однопоточном режиме». В настоящее время, отметил Хуанг, новый процессор Intel проходит квалификационное тестирование гиперскейлерами по всему миру, а также тестируется в качестве основного CPU для будущих суперкомпьютеров NVIDIA.

Постоянный URL: http://servernews.ru/1067551
05.05.2022 [20:17], Илья Коваль

Фото дня: ускоритель NVIDIA Hopper H100 в SXM-формате

Ресурс ServeTheHome опубликовал первые живые фотографии грядущего ускорителя NVIDIA H100 на базе новой архитектуры Hopper, который был анонсирован в марте и станет доступен в III квартале этого года. Отмечается, что компоновка платы стала намного более плотной в сравнении с предыдущими SXM-модулями и, в целом, совпадает с тем, что было показано ранее на официальных иллюстрациях.

Так, например, чип GPU (80 млрд транзисторов, техпроцесс TSMC N4) окружён шестью модулями, пять из которых являются HBM3-банками суммарной ёмкостью 80 Гбайт (5 × 16 Гбайт), а шестой нужен только для поддержки и выравнивания высоты. Объём памяти по сравнению с прошлым поколением ускорителей A100 не вырос, но вот пропускная способность поднялась до впечатляющих 3 Тбайт/с, то есть выросла в полтора раза.

 NVIDIA H100 (Фото: ServerTheHome)

NVIDIA H100 (Фото: ServeTheHome)

Также обращает на себя внимание иная компоновка коннекторов с обратной стороны платы. H100 получат не только поддержку PCIe 5.0, но и новый интерконнект NVLink 4.0, у которого, как и у памяти, пропускная способность тоже выросла в полтора раза быстрее, до 900 Гбайт/с. С остальными фотографиями новинки можно ознакомиться на сайте ServeTheHome.

Постоянный URL: http://servernews.ru/1065383
23.03.2022 [13:07], Сергей Карасёв

Supermicro объявила о полной поддержке новейших акселераторов NVIDIA

Компания Supermicro сообщила о поддержке новейших версий программного обеспечения и оборудования NVIDIA. Речь идёт о платформе Omniverse Enterprise, а также об акселераторах NVIDIA RTX A5500, платформе NVIDIA HGX A100 и ускорителях нового поколения NVIDIA H100 Tensor Core. Говорится также, что эталонная архитектура NVIDIA OVX доступна на серверах Supermicro SYS-420GP-TNR с GPU NVIDIA A40.

«Предлагаемый компанией Supermicro ассортимент серверов и рабочих станций разработан с учётом преимуществ пакета программного обеспечения NVIDIA AI Enterprise и платформы Omniverse Enterprise и позволяет специалистам беспрепятственно и более эффективно выполнять совместную работу», — отмечает Supermicro.

 Источник изображения: Supermicro

Источник изображения: Supermicro

Для осуществления реалистичного моделирования на базе Omniverse Enterprise могут применяться такие аппаратные решения Supermicro, как SuperWorkstation 5014A-TT A+, SYS-540A-TR и SuperServer SYS-420GP-TNR. Серверы и рабочие станции Supermicro, сертифицированные компанией NVIDIA, проходят проверку на соответствие требованиям к инфраструктуре с ускорением на базе графических процессоров, способной справляться с разнообразным набором задач.

Постоянный URL: http://servernews.ru/1062566
22.03.2022 [18:40], Игорь Осколков

NVIDIA анонсировала 4-нм ускорители Hopper H100 и самый быстрый в мире ИИ-суперкомпьютер EOS на базе DGX H100

На GTC 2022 компания NVIDIA анонсировала ускорители H100 на базе новой архитектуры Hopper. Однако NVIDIA уже давно говорит о себе как создателе платформ, а не отдельных устройств, так что вместе с H100 были представлены серверные Arm-процессоры Grace, в том числе гибридные, а также сетевые решения и обновления наборов ПО.

 NVIDIA H100 (Изображения: NVIDIA)

NVIDIA H100 (Изображения: NVIDIA)

NVIDIA H100 использует мультичиповую 2.5D-компоновку CoWoS и содержит порядка 80 млрд транзисторов. Но нет, это не самый крупный чип компании на сегодняшний день. Кристаллы новинки изготавливаются по техпроцессу TSMC N4, а сопровождают их — впервые в мире, по словам NVIDIA — сборки памяти HBM3 суммарным объёмом 80 Гбайт. Объём памяти по сравнению с A100 не вырос, зато в полтора раза увеличилась её скорость — до рекордных 3 Тбайт/с.

 NVIDIA H100 (SXM)

NVIDIA H100 (SXM)

Подробности об архитектуре Hopper будут представлены чуть позже. Пока что NVIDIA поделилась некоторыми сведениями об особенностях новых чипов. Помимо прироста производительности от трёх (для FP64/FP16/TF32) до шести (FP8) раз в сравнении с A100 в Hopper появилась поддержка формата FP8 и движок Transformer Engine. Именно они важны для достижения высокой производительности, поскольку само по себе четвёртое поколение ядер Tensor Core стало втрое быстрее предыдущего (на всех форматах).

 NVIDIA H100 CNX (PCIe)

NVIDIA H100 CNX (PCIe)

TF32 останется форматом по умолчанию при работе с TensorFlow и PyTorch, но для ускорения тренировки ИИ-моделей NVIDIA предлагает использовать смешанные FP8/FP16-вычисления, с которыми Tensor-ядра справляются эффективно. Хитрость в том, что Transformer Engine на основе эвристик позволяет динамически переключаться между ними при работе, например, с каждым отдельным слоем сети, позволяя таким образом добиться повышения скорости обучения без ущерба для итогового качества модели.

На больших моделях, а именно для таких H100 и создавалась, сочетание Transformer Engine с другими особенностями ускорителей (память и интерконнект) позволяет получить девятикратный прирост в скорости обучения по сравнению с A100. Но Transformer Engine может быть полезен и для инференса — готовые FP8-модели не придётся самостоятельно конвертировать в INT8, движок это сделает на лету, что позволяет повысить пропускную способность от 16 до 30 раз (в зависимости от желаемого уровня задержки).

Другое любопытное нововведение — специальные DPX-инструкции для динамического программирования, которые позволят ускорить выполнение некоторых алгоритмов до 40 раз в задачах, связанных с поиском пути, геномикой, квантовыми системами и при работе с большими объёмами данных. Кроме того, H100 получили дальнейшее развитие виртуализации. В новых ускорителях всё так же поддерживается MIG на 7 инстансов, но уже второго поколения, которое привнесло больший уровень изоляции благодаря IO-виртуализации, выделенным видеоблокам и т.д.

Так что MIG становится ещё более предпочтительным вариантом для облачных развёртываний. Непосредственно к MIG примыкает и технология конфиденциальных вычислений, которая по словам компании впервые стала доступна не только на CPU. Программно-аппаратное решение позволяет создавать изолированные ВМ, к которым нет доступа у ОС, гипервизора и других ВМ. Поддерживается сквозное шифрование при передаче данных от CPU к ускорителю и обратно, а также между ускорителями.

Память внутри GPU также может быть изолирована, а сам ускоритель оснащается неким аппаратным брандмауэром, который отслеживает трафик на шинах и блокирует несанкционированный доступ даже при наличии у злоумышленника физического доступа к машине. Это опять-таки позволит без опаски использовать H100 в облаке или в рамках колокейшн-размещения для обработки чувствительных данных, в том числе для задач федеративного обучения.


NVIDIA HGX H100

Но главная инновация — это существенное развитие интерконнекта по всем фронтам. Суммарная пропускная способность внешних интерфейсов чипа H100 составляет 4,9 Тбайт/с. Да, у H100 появилась поддержка PCIe 5.0, тоже впервые в мире, как утверждает NVIDIA. Однако ускорители получили не только новую шину NVLink 4.0, которая стала в полтора раза быстрее (900 Гбайт/с), но и совершенно новый коммутатор NVSwitch, который позволяет напрямую объединить между собой до 256 ускорителей! Пропускная способность «умной» фабрики составляет до 70,4 Тбайт/с.

Сама NVIDIA предлагает как новые системы DGX H100 (8 × H100, 2 × BlueField-3, 8 × ConnectX-7), так и SuperPOD-сборку из 32-х DGX, как раз с использованием NVLink и NVSwitch. Партнёры предложат HGX-платформы на 4 или 8 ускорителей. Для дальнейшего масштабирования SuperPOD и связи с внешним миром используются 400G-коммутаторы Quantum-2 (InfiniBand NDR). Сейчас NVIDIA занимается созданием своего следующего суперкомпьютера EOS, который будет состоять из 576 DGX H100 и получит FP64-производительность на уровне 275 Пфлопс, а FP16 — 9 Эфлопс.

Компания надеется, что EOS станет самой быстрой ИИ-машиной в мире. Появится она чуть позже, как и сами ускорители, выход которых запланирован на III квартал 2022 года. NVIDIA представит сразу три версии. Две из них стандартные, в форм-факторах SXM4 (700 Вт) и PCIe-карты (350 Вт). А вот третья — это конвергентный ускоритель H100 CNX со встроенными DPU Connect-X7 класса 400G (подключение PCIe 5.0 к самому ускорителю) и интерфейсом PCIe 4.0 для хоста. Компанию ей составят 400G/800G-коммутаторы Spectrum-4.

Постоянный URL: http://servernews.ru/1062434
Система Orphus