Материалы по тегу: dgx

08.06.2022 [15:20], Алексей Степин

NVIDIA выбрала процессоры Intel Xeon Sapphire Rapids для своих топовых систем DGX H100

В популярных ныне HPC-системах ведущую роль в обеспечении производительности зачастую играют ускорители, располагающие огромными массивами универсальных вычислительных ядер. Однако все их надо вовремя «кормить» данными, и здесь на первый план выходит пропускная способность интерконнекта. В своё время NVIDIA для DGX A100 выбрала AMD EPYC, единственные массовые на тот момент CPU с поддержкой PCI Express 4.0.

Однако Intel удалось, наконец, справиться с технологическим отставанием по этой части, так что процессоры Xeon поколения Sapphire Rapids получили не только новые расширения, но и поддержку PCI Express 5.0/CXL. И это, возможно, одна из основных причин, по которой корпорация NVIDIA на конференции BofA Securities 2022 объявила о том, что новая система DGX H100 будет использовать именно Sapphire Rapids, а не AMD EPYC Genoa, хотя дизайн системных плат прорабатывался и для этого процессора.

 DGX H100. Источник: NVIDIA

DGX H100. Источник: NVIDIA

Новинка должна увидеть свет в конце этого года, она получит два процессора Xeon Sapphire Rapids, 2 Тбайт системной памяти и 8 ускорителей NVIDIA H100 на базе архитектуры Hopper, объединённых четвёртым поколением интерконнекта NVLink. Общий объём пула HBM3-памяти ускорителей составит 640 Гбайт, чего достаточно для достаточно серьёзных моделей машинного обучения; производительность же в типичном для этого режиме FP8 составит 32 Пфлопс.

Для загрузки машина получит пару NVMe-накопителей объёмом 1,9 Тбайт каждый, встроенное хранилище данных будет состоять из 8 дисков NVMe U.2 объёмом по 3,84 Тбайт. Сетевая часть также достаточно любопытна: только для управления DGX H100 имеет порт 10GbE (50GbE опционально), основная же сетевая часть представлена 400G-адаптерами ConnectX-7 и DPU BlueField-3.

 Источник: Intel

Источник: Intel

Глава корпорации, Дженсен Хуанг (Jensen Huang) также отметил, что NVIDIA продолжит поддержку процессоров с архитектурой x86, в том числе, и для новых суперкомпьютеров, несмотря на разработку собственной серии Arm-процессоров Grace (Hopper). Эти чипы также используют NVLink 4.0 с пропускной способностью 900 Гбайт/с и используются в платформе HGX.

Однако Intel Sapphire Rapids заслужил отдельной похвалы за «великолепную производительность в однопоточном режиме». В настоящее время, отметил Хуанг, новый процессор Intel проходит квалификационное тестирование гиперскейлерами по всему миру, а также тестируется в качестве основного CPU для будущих суперкомпьютеров NVIDIA.

Постоянный URL: http://servernews.ru/1067551
22.03.2022 [18:40], Игорь Осколков

NVIDIA анонсировала 4-нм ускорители Hopper H100 и самый быстрый в мире ИИ-суперкомпьютер EOS на базе DGX H100

На GTC 2022 компания NVIDIA анонсировала ускорители H100 на базе новой архитектуры Hopper. Однако NVIDIA уже давно говорит о себе как создателе платформ, а не отдельных устройств, так что вместе с H100 были представлены серверные Arm-процессоры Grace, в том числе гибридные, а также сетевые решения и обновления наборов ПО.

 NVIDIA H100 (Изображения: NVIDIA)

NVIDIA H100 (Изображения: NVIDIA)

NVIDIA H100 использует мультичиповую 2.5D-компоновку CoWoS и содержит порядка 80 млрд транзисторов. Но нет, это не самый крупный чип компании на сегодняшний день. Кристаллы новинки изготавливаются по техпроцессу TSMC N4, а сопровождают их — впервые в мире, по словам NVIDIA — сборки памяти HBM3 суммарным объёмом 80 Гбайт. Объём памяти по сравнению с A100 не вырос, зато в полтора раза увеличилась её скорость — до рекордных 3 Тбайт/с.

 NVIDIA H100 (SXM)

NVIDIA H100 (SXM)

Подробности об архитектуре Hopper будут представлены чуть позже. Пока что NVIDIA поделилась некоторыми сведениями об особенностях новых чипов. Помимо прироста производительности от трёх (для FP64/FP16/TF32) до шести (FP8) раз в сравнении с A100 в Hopper появилась поддержка формата FP8 и движок Transformer Engine. Именно они важны для достижения высокой производительности, поскольку само по себе четвёртое поколение ядер Tensor Core стало втрое быстрее предыдущего (на всех форматах).

 NVIDIA H100 CNX (PCIe)

NVIDIA H100 CNX (PCIe)

TF32 останется форматом по умолчанию при работе с TensorFlow и PyTorch, но для ускорения тренировки ИИ-моделей NVIDIA предлагает использовать смешанные FP8/FP16-вычисления, с которыми Tensor-ядра справляются эффективно. Хитрость в том, что Transformer Engine на основе эвристик позволяет динамически переключаться между ними при работе, например, с каждым отдельным слоем сети, позволяя таким образом добиться повышения скорости обучения без ущерба для итогового качества модели.

На больших моделях, а именно для таких H100 и создавалась, сочетание Transformer Engine с другими особенностями ускорителей (память и интерконнект) позволяет получить девятикратный прирост в скорости обучения по сравнению с A100. Но Transformer Engine может быть полезен и для инференса — готовые FP8-модели не придётся самостоятельно конвертировать в INT8, движок это сделает на лету, что позволяет повысить пропускную способность от 16 до 30 раз (в зависимости от желаемого уровня задержки).

Другое любопытное нововведение — специальные DPX-инструкции для динамического программирования, которые позволят ускорить выполнение некоторых алгоритмов до 40 раз в задачах, связанных с поиском пути, геномикой, квантовыми системами и при работе с большими объёмами данных. Кроме того, H100 получили дальнейшее развитие виртуализации. В новых ускорителях всё так же поддерживается MIG на 7 инстансов, но уже второго поколения, которое привнесло больший уровень изоляции благодаря IO-виртуализации, выделенным видеоблокам и т.д.

Так что MIG становится ещё более предпочтительным вариантом для облачных развёртываний. Непосредственно к MIG примыкает и технология конфиденциальных вычислений, которая по словам компании впервые стала доступна не только на CPU. Программно-аппаратное решение позволяет создавать изолированные ВМ, к которым нет доступа у ОС, гипервизора и других ВМ. Поддерживается сквозное шифрование при передаче данных от CPU к ускорителю и обратно, а также между ускорителями.

Память внутри GPU также может быть изолирована, а сам ускоритель оснащается неким аппаратным брандмауэром, который отслеживает трафик на шинах и блокирует несанкционированный доступ даже при наличии у злоумышленника физического доступа к машине. Это опять-таки позволит без опаски использовать H100 в облаке или в рамках колокейшн-размещения для обработки чувствительных данных, в том числе для задач федеративного обучения.


NVIDIA HGX H100

Но главная инновация — это существенное развитие интерконнекта по всем фронтам. Суммарная пропускная способность внешних интерфейсов чипа H100 составляет 4,9 Тбайт/с. Да, у H100 появилась поддержка PCIe 5.0, тоже впервые в мире, как утверждает NVIDIA. Однако ускорители получили не только новую шину NVLink 4.0, которая стала в полтора раза быстрее (900 Гбайт/с), но и совершенно новый коммутатор NVSwitch, который позволяет напрямую объединить между собой до 256 ускорителей! Пропускная способность «умной» фабрики составляет до 70,4 Тбайт/с.

Сама NVIDIA предлагает как новые системы DGX H100 (8 × H100, 2 × BlueField-3, 8 × ConnectX-7), так и SuperPOD-сборку из 32-х DGX, как раз с использованием NVLink и NVSwitch. Партнёры предложат HGX-платформы на 4 или 8 ускорителей. Для дальнейшего масштабирования SuperPOD и связи с внешним миром используются 400G-коммутаторы Quantum-2 (InfiniBand NDR). Сейчас NVIDIA занимается созданием своего следующего суперкомпьютера EOS, который будет состоять из 576 DGX H100 и получит FP64-производительность на уровне 275 Пфлопс, а FP16 — 9 Эфлопс.

Компания надеется, что EOS станет самой быстрой ИИ-машиной в мире. Появится она чуть позже, как и сами ускорители, выход которых запланирован на III квартал 2022 года. NVIDIA представит сразу три версии. Две из них стандартные, в форм-факторах SXM4 (700 Вт) и PCIe-карты (350 Вт). А вот третья — это конвергентный ускоритель H100 CNX со встроенными DPU Connect-X7 класса 400G (подключение PCIe 5.0 к самому ускорителю) и интерфейсом PCIe 4.0 для хоста. Компанию ей составят 400G/800G-коммутаторы Spectrum-4.

Постоянный URL: http://servernews.ru/1062434
09.11.2021 [16:58], Владимир Мироненко

NVIDIA NeMo Megatron поможет в обучении сверхбольших языковых моделей в инфраструктуре NVIDIA DGX SuperPOD

NVIDIA представила фреймворк NeMo Megatron, оптимизированный для обучения сверхбольших языковых моделей в инфраструктуре DGX SuperPOD. Такое сочетание готового к работе оборудования и ПО призвано помочь организациям в различных отраслях преодолеть проблемы, связанные с обучением сложных NLP-моделей для обработки естественного языка.

С помощью NVIDIA NeMo Megatron можно эффективно обучать массивные языковые и речевые модели с триллионами параметров, что позволит разрабатывать чат-ботов для конкретных языков и отраслей, персональных помощников, а также создавать и обобщать контент с использованием моделей, которые понимают более широкий диапазон значений и более обширный контекст.

«Большие языковые модели предоставили современному ИИ новые возможности для понимания, запоминания и синтеза идей, — отметил Брайан Катандзаро (Bryan Catanzaro), вице-президент по прикладным исследованиям глубокого обучения в NVIDIA. — Поскольку языковые модели увеличиваются, предприятиям требуется безопасная инфраструктура и масштабируемое ПО для выполнения рабочих нагрузок NLP».

 NVIDIA

NVIDIA

В числе первых, кто начал создавать сложные языковые модели с помощью NVIDIA DGX SuperPOD есть SiDi, JD Explore Academy и VinBrain. SiDi, один из крупнейших бразильских институтов исследований и разработок в области ИИ, адаптировал виртуального помощника Samsung для бразильского варианта португальского языка, на котором говорят около 200 млн жителей страны.

JD Explore Academy, отдел исследований и разработок JD.com, использует NLP для обслуживания клиентов, розничной торговли, логистики, Интернета вещей и здравоохранения. А вьетнамская компания VinBrain, специализирующаяся в области ИИ в сфере здравоохранения, разработала и внедрила клиническую модель для радиологов и телемедицины в 100 больницах, где её используют более 600 практикующих врачей.

NVIDIA NeMo Megatron не только автоматизирует обучение с помощью инструментов, которые собирают, обрабатывают, систематизируют и очищают данные, но и позволяет распределять большие языковые модели по тысячам графических процессоров. NeMo Megatron оптимизирован для систем DGX SuperPOD, которые имеют 20 и более узлов NVIDIA DGX A100, объединённых интерконнектом InfiniBand. Такие системы идеально подходят для работы с массивными NLP-нагрузками, такими как Megatron-Turing, NLG 530B и GPT-3.

Постоянный URL: http://servernews.ru/1053303
23.09.2021 [13:49], Владимир Мироненко

Selectel предлагает бесплатно протестировать NVIDIA DGX A100

Selectel, российский провайдер облачных услуг и дата-центров, объявил о пополнении портфолио своих решений вычислительной системой NVIDIA DGX A100 производительностью 5 Пфлопс, оптимизированной для работы с ИИ — от анализа данных до тренировки и инференса. Решение подойдёт крупным компаниям в сферах AI, ML и обработки данных, исследовательским организациям, промышленным компаниям, а также организациям в сфере образования и науки. Прямо сейчас Selectel предлагает бесплатно протестировать новинку.

NVIDIA DGX A100 представляет собой стоечный сервер в форм-факторе 6U, оснащённый 8 ускорителями NVIDIA Tesla A100 с тензорными ядрами и общим объёмом памяти 320 Гбайт (по 40 Гбайт у каждого). Ёмкость NVMe SSD (PCIe 4.0) составляет 15 Тбайт. Объём оперативной памяти равен 1 Тбайт — всего шестнадцать слотов для модулей памяти DDR4-3200 объёмом 64 Гбайт. Этого достаточно для решения даже самых сложных задач в области ИИ.

В NVIDIA DGX A100 используются два 64-ядерных процессора AMD EPYC 7742 поколения Rome с возможностью одновременной обработки до 128 потоков инструкций и рабочей частотой 2,25 ГГц (максимальная — 3,4 ГГц). Система также включает 6 коммутаторов NVIDIA NVSwitch шестого поколения, 9 адаптеров Mellanox ConnectX-6 VPI HDR/200GbE.

В данной конфигурации система потребляет порядка 5 кВт, но эффективная воздушная система охлаждения позволяет удерживать температуры CPU и GPU в пределах +69 °C. В портфолио Selectel уже есть серверы с восемью PCIe-ускорителями NVIDIA A100, но DGX-система использует более мощные SXM4-версии A100 и быстрый интерконнект NVSwitch. Компания сравнила обе версии A100 в GeekBench 5 Compute и ai-benchmark.

Первый тест оценивает общие вычислительные возможности, а второй позволяет замерить скорость обучения и применения различных нейронных сетей на задачах распознавания и классификации. Если же вы хотите самостоятельно оценить возможности DGX A100 в ваших задачах, то Selectel предлагает бесплатно протестировать новинку. Заявку можно оставить на странице акции.

Постоянный URL: http://servernews.ru/1049675
29.06.2021 [13:25], Владимир Мироненко

МТС запустила суперкомпьютер MTS GROM: третья российская система в TOP500

Российская компания МТС объявила о запуске суперкомпьютера MTS GROM, который будет использоваться для развития цифровой экосистемы. С производительностью 2,26 Пфлопс в мировом рейтинге высокопроизводительных машин TOP500 он находится на 241 месте, а среди российских суперкомпьютеров рейтинга он занимает третье место (из трёх).

Суперкомпьютер MTS GROM построен на базе программно-аппаратной платформы NVIDIA DGX A100 и включает 155 узлов: 2 × AMD EPYC 7742 (64C/128T, 2,25/2,4 ГГц, 256 Мбайт L3-кеш, TDP 225 Вт) + 8 × NVIDIA A100 (40 Гбайт) c NVSwitch. Суммарный объём RAM составляет 20,48 Тбайт, а число ядер CPU достигает 19840. Работает система под управлением Ubuntu 20.04.1 LTS.

Узлы объединены посредством InfiniBand, а для хранения данных используется NVMe-oF СХД NetApp, благодаря чему достигается сверхбыстрое взаимодействие вычислительных узлов с СХД для сокращения времени обучения ИИ-моделей. Система построена является воплощением NVIDIA DGX SuperPOD for Enterprise и была развёрнута всего за месяц.

С помощью нового суперкомпьютера Центр искусственного интеллекта МТС планирует реализовывать внутренние и внешние проекты в области клиентского сервиса и повышения операционной эффективности бизнеса. В частности, MTS GROM будет полезен образовательным учреждениям, крупным научным и медицинским центрам в исследованиях, связанных с моделированием сложных процессов.

Как сообщает компания, «в дальнейшем высокопроизводительные мощности MTS GROM станут доступны российским компаниям в портфеле провайдера #CloudMTS. Это позволит крупному бизнесу кратно сократить время на разработку и внедрение проектов на основе искусственного интеллекта и больших данных. Стартапам — в сотни раз снизить затраты на высокопроизводительные вычисления для анализа речи, обработки видео и распознавания лиц». Воспользоваться мощностями MTS GROM можно будет, оставив заявку на сайте #CloudMTS.

«МТС формирует цифровую экосистему для российских компаний. На базе MTS GROM мы будем развивать самые перспективные технологии, связанные с искусственным интеллектом, анализом больших данных и облачными решениями. Суперкомпьютер MTS GROM призван повысить технологичность компании, а также лечь в основу будущих сервисов, которые бизнес и научные организации смогут получить в облаке #CloudMTS, значительно экономя», — отметил директор облачного бизнеса МТС Олег Мотовилов.

Постоянный URL: http://servernews.ru/1043086
27.02.2021 [18:47], Юрий Поздеев

NVIDIA и NetApp сделают ИИ более доступным

NVIDIA и NetApp объявили о своей совместной работе над упрощением развертывания ИИ. Подобное партнерство взаимовыгодно, ведь готовые решения для бизнеса лучше продаются, что положительно сказывается на выручке и прибыли обеих компаний.

Искусственный интеллект (ИИ) считается перспективной технологией для многих компаний, однако его внедрение до сих пор достаточно сложное и трудоемкое, а высокая стоимость оборудования накладывает дополнительные ограничения на широкое распространение ИИ в малом и среднем бизнесе.

Платформы ИИ представляют собой многоуровневый стек оборудования и программного обеспечения, для внедрения которых нужна высокая квалификация персонала и значительные затраты на его обучение. Однако внедрением обычно дело не заканчивается, и компании продолжают нести затраты на развитие и поддержку ИИ сервисов.

NetApp ONTAP AI позволяет облегчить внедрение ИИ, предоставляя готовое решение из протестированного оборудования и ПО, которое построено на базе All-Flash СХД NetApp, серверов NVIDIA DGX A100 и сетевого оборудования NVIDIA (Mellanox). Решение предлагается в трех вариантах:

  • Small: 2 узла NVIDIA DGX A100, СХД NetApp AFF A400 емкостью от 65 до 131 Тбайт;
  • Medium: 4 ущла NVIDIA DGX A100, СХД NetApp AFF A700 емкостью от 131 до 263 Тбайт;
  • Large: 8 узла NVIDIA DGX A100, СХД NetApp AFF A800 емкостью от 263 до 526 Тбайт

Готовое решение NetApp ONTAP AI предлагает не только быстрый запуск «под ключ», но и единую сервисную поддержку на все оборудование, что удобно и избавляет клиента от необходимости заключать контракт с каждым поставщиком по отдельности.

Постоянный URL: http://servernews.ru/1033709
14.05.2020 [18:52], Рамис Мубаракшин

NVIDIA представила ускорители A100 с архитектурой Ampere и систему DGX A100 на их основе

NVIDIA официально представила новую архитектуру графических процессоров под названием Ampere, которая является наследницей представленной осенью 2018 года архитектуры Turing. Основные изменения коснулись числа ядер — их теперь стало заметно больше. Кроме того, новинки получили больший объём памяти, поддержку bfloat16, возможность разделения ресурсов (MIG) и новые интерфейсы: PCIe 4.0 и NVLink третьего поколения.

NVIDIA A100 выполнен по 7-нанометровому техпроцессу и содержит в себе 54 млрд транзисторов на площади 826 мм2. По словам NVIDIA, A100 с архитектурой Ampere позволяют обучать нейросети в 40 раз быстрее, чем Tesla V100 с архитектурой Turing.

 Характеристики A100

Характеристики A100

Первой основанной на ней вычислительной системой стала фирменная DGX A100, состоящая из восьми ускорителей NVIDIA A100 с NVSwitch, имеющих суммарную производительность 5 Пфлопс. Стоимость одной системы DGX A100 равна $199 тыс., они уже начали поставляться некоторым клиентам. Известно, что они будут использоваться в Аргоннской национальной лаборатории для поддержания работы искусственного интеллекта, изучающего COVID-19 и ищущего от него лекарство.

Так как некоторые группы исследователей не могут себе позволить покупку системы DGX A100 из-за ее высокой стоимости, их планируют купить поставщики услуг по облачным вычислений и предоставлять удалённый доступ к высоким мощностям. На данный момент известно о 18 провайдерах, готовых к использованию систем и ускорителей на основе архитектуры Ampere, и среди них есть Google, Microsoft и Amazon.

 Система NVIDIA DGX A100

Система NVIDIA DGX A100

Помимо системы DGX A100, компания NVIDIA анонсировала ускорители NVIDIA EGX A100, предназначенная для периферийных вычислений. Для сегмента интернета вещей компания предложила плату EGX Jetson Xavier NX размером с банковскую карту.

Постоянный URL: http://servernews.ru/1010946
12.07.2019 [17:17], Владимир Мироненко

Программа NVIDIA DGX-Ready Data Center теперь доступна в 24 странах

Анонсированная в январе компанией NVIDIA программа DGX-Ready Data Center получила ещё большее распространение за пределами США, и удвоила число партнёрских центров обработки данных до 19.

Сообщается, что у программы NVIDIA DGX-Ready Data Center появились три новых партнёра в Европе, пять в Азии и два в Северной Америке. В настоящее время программа доступна для компаний из 24 стран.

Среди новых партнёров программы — компания Verne Global, имеющая ЦОД с нулевым уровнем выбросов углерода в Исландии, а также Fujitsu с ЦОД в Иокогаме, где установлено более 60 систем NVIDIA DGX-1 и DGX-2.

Как сообщает компания, программа NVIDIA DGX-Ready Data Center, построенная на системах NVIDIA DGX и поставляемая партнёрами NVIDIA, обеспечивает клиентам возможность значительного продвижения в разработке ИИ на любой платформе.

NVIDIA рекламирует DGX-Ready как решение, упрощающее внедрение вычислений на GPU, предъявляющих повышенные требования к энергопотреблению и охлаждению для вычислительных инфраструктур по сравнению с возможностями многих локальных ЦОД, созданных для традиционных ИТ-вычислений.

Семейство продуктов DGX компании NVIDIA включает серверы с 8 и 16 графическими процессорами. Вместе с тем система NVIDIA DGX SuperPOD, занимающая 22-е место среди суперкомпьютеров в мире по быстродействию (согласно публичному рейтингу Top 500), имеет 96 модулей DGX-2H, содержащих по 16 тензорных ускорителей вычислений Tesla V100 с архитектурой Volta.

Чтобы упростить поиск партнёров, NVIDIA создала портал DGX-Ready Data Center, который позволяет клиентам выполнять поиск в глобальной сети поставщиков с фильтрацией по регионам, поддерживаемым системам и расширенным услугам.

Постоянный URL: http://servernews.ru/990672
11.05.2017 [10:00], Иван Грудцын

Эра NVIDIA Volta началась с ускорителя Tesla V100

На конференции GTC 2017 в американском городе Сан-Хосе компания NVIDIA в лице её генерального директора Дженсена Хуанга (Jen-Hsun Huang) представила ускоритель Tesla V100 для дата-центров на основе графического процессора Volta GV100. Разработка последнего обошлась NVIDIA в $3 млрд, и в результате свет увидел чип площадью 815 мм², содержащий 21,1 млрд транзисторов, более 5000 потоковых процессоров и новые блоки Tensor, повышающие производительность GPU в так называемых матричных вычислениях. Изготовление ядер GV100 было поручено давнему партнёру NVIDIA — тайваньскому полупроводниковому гиганту TSMC. Техпроцесс выпуска — 12-нм FFN. Последняя буква в аббревиатуре FFN обозначает не что иное, как «NVIDIA»: технологическая норма разрабатывалась с учётом требований заказчика.

 Tesla V100

Tesla V100

Из года в год сложность архитектуры кремниевых кристаллов для HPC-задач продолжает расти, и теперь, с дебютом NVIDIA Volta, остаётся констатировать, что помимо потоковых процессоров, кеш-памяти первого и второго уровней, текстурных блоков, контроллеров VRAM и системного интерфейса, частью high-end GPU становятся блоки Tensor. У GV100 их по 8 на мультипроцессорный кластер (SM) и 672 в целом.

 SM-блок Volta GV100

SM-блок Volta GV100

Матричные вычисления в блоках Tensor увеличивают производительность нового ядра в задачах машинного обучения до 120 Тфлопс. В то же время быстродействие GV100 в FP32-вычислениях составляет 15 Тфлопс, а в FP64-вычислениях — 7,5 Тфлопс.

 Ядро Volta GV100

Volta GV100

Ядро Volta GV100 неотделимо от буферной памяти — четырёх микросхем HBM2, взаимодействующих с GPU по 4096-битной шине. Объём каждого чипа составляет 4 Гбайт, пропускная способность подсистемы памяти — 900 Гбайт/с. Кристалл GV100 дебютирует одновременно с ускорителем Tesla V100, являясь его основой. В V100 ядро работает на частоте до 1455 МГц (с учётом динамического разгона) обеспечивая вышеуказанную производительность в FP32-, FP64- и матричных (Tensor) вычислениях. Адаптер с GPU впечатляющих размеров потребляет умеренные 300 Вт — столько же, сколько и Tesla P100.

 Спецификации ускорителей NVIDIA Tesla разных лет

Спецификации ускорителей NVIDIA Tesla разных лет

 Вычислительные возможности Volta GV100

Вычислительные возможности Volta GV100

По эскизу в начале данной заметки можно было догадаться, что соединение Tesla V100 с такими же ускорителями и центральным процессором обеспечивает интерфейс типа NVLink. В этот раз это не интерфейс первого поколения, а NVLink 2.0 — соответствующие контакты находятся на тыльной поверхности карты. В Tesla V100 реализовано шесть двунаправленных 25-Гбайт соединений (суммарно 300 Гбайт/с), а также функция согласования содержимого кеш-памяти с кешем центрального процессора IBM POWER9.

Распространение новых HPC-ускорителей будет осуществляться по межкорпоративным (B2B) каналам. При этом заказчики получат свободный выбор между готовыми решениями вкупе с сопутствующим программным обеспечением и технической поддержкой. Все три системы — DGX-1, HGX-1 и DGX Station — предназначены для решения задач, связанных с развитием искусственного интеллекта (AI).

С системой глубинного обучения NVIDIA DGX-1 первого поколения мы уже знакомили читателей — она использует восемь ускорителей Tesla P100 с производительностью 170 Тфлопс в вычислениях половинной точности (FP16). Обновлённый сервер DGX-1 содержит восемь карт Tesla V100 с быстродействием 960 Тфлопс (FP16), два центральных процессора Intel Xeon и блок(-и) питания суммарной мощностью не менее 3200 Вт. Такой апгрейд позволяет выполнять не только типичные задачи в области исследования AI, но и переходить к новым, целесообразность решения которых прежде была под вопросом ввиду высокой сложности вычислений.

Предварительный заказ системы NVIDIA DGX-1 второго поколения обойдётся всем желающим в $149 000. Ориентировочный срок начала поставок — третий квартал текущего года.

Сервер HGX-1 на восьми ускорителях Tesla V100 аналогичен DGX-1. Ключевое отличие данной системы заключается в применении жидкостного охлаждения компонентов. Кроме того, NVIDIA HGX-1 проще внедрить с ИТ-инфраструктуру компаний. Помимо глубинного обучения, этот сервер может использоваться в экосистеме GRID, а также для решения широкого круга HPC-задач.

 NVIDIA HGX

NVIDIA DGX Station представляет собой высокопроизводительную рабочую станцию с четырьмя картами Tesla V100, центральным процессором Intel Xeon, системой жидкостного охлаждения и 1500-ваттным источником питания. Ускорители NVIDIA в составе DGX Station оснащены интерфейсом NVLink 200 Гбайт/с и тремя разъёмами DisplayPort с поддержкой разрешения 4K.

В матричных Tensor-вычислениях DGX Station обеспечивает быстродействие на уровне 480 Тфлопс. Стоимость рабочей станции для рынка США равна $69 000.

Постоянный URL: http://servernews.ru/952008
15.11.2016 [19:07], Константин Ходаковский

NVIDIA создаёт новые GPU с помощью своего суперкомпьютера на архитектуре Pascal

Представленный в апреле суперкомпьютер NVIDIA DGX SATURNV занял 28-е место по быстродействию в обновлённом мировом рейтинге Top500 и 1-е место — по энергоэффективности, которая оценивается в 9,46 гигафлопс на ватт. По этому показателю детище NVIDIA на 27 % обходит ближайшего конкурента из Швейцарии в лице Piz Daint. А если сравнивать с аналогичным по производительности суперкомпьютером Intel Camphore 2 на базе процессоров Xeon Phi Knights Landing, вычислительный центр SATURNV потребляет в 2,3 раза меньше энергии.

Именно графические ускорители дали резкий толчок развитию суперкомпьютерных мощностей и технологий искусственного интеллекта. Машинное самообучение открывает новые горизонты в самых разных сферах науки, медицины, финансов, проектирования и даже искусства.

Кластер общей производительностью 3,3 петафлопс включает 124 системы DGX-1, каждая из которых объединяет 8 графических процессоров Tesla P100 на архитектуре Pascal. По оценкам NVIDIA, один модуль DGX-1 способен заменить 250 серверов с процессорами x86. Неудивительно, что компания сама использует преимущества искусственного интеллекта в исследованиях и разработках.

В частности, ИИ-технологии суперкомпьютера SATURNV задействованы в разработке программного обеспечения платформы автономного вождения NVIDIA DRIVE PX 2, которая, например, станет основой автоматического управления электромобилей Tesla Motors. Более того, нейросети помогают инженерам компании проектировать дизайн новых сложноинтегрированных GPU и SoC.

Среди наиболее значимых сторонних применений серверов DGX-1 NVIDIA называет корпорацию SAP, предоставляющую инструменты бизнес-планирования 320 тысячам своих клиентов; разработчика искусственного интеллекта OpenAI; Стэндфордский и Нью-Йоркский университеты; стартап в области медицины BenevolentAI.

Постоянный URL: http://servernews.ru/942758
Система Orphus