Материалы по тегу: nvidia

13.05.2021 [14:55], Сергей Карасёв

Lenovo построит суперкомпьютер HoreKa, который станет одним из десяти самых мощных в Европе

Компания Lenovo и её бизнес-партнёр Pro-Com займутся реализацией проекта по созданию высокопроизводительного вычислительного комплекса HoreKa. Ожидается, что эта система в нынешнем году войдёт в десятку мощнейших суперкомпьютеров Европы.

Заказчиком комплекса выступает Технологический институт Карлсруэ (KIT) — немецкий исследовательский университет. Основой системы послужат серверы Lenovo ThinkSystem в гибридной конфигурации с прямым жидкостным охлаждением. Общая производительность суперкомпьютера, как ожидается, составит 17 Пфлопс.

В общей сложности будут задействованы почти 60 000 вычислительных ядер процессоров Intel Xeon Scalable нового поколения. Компанию им составят 740 ускорителей NVIDIA A100 с охлаждением горячей водой. Объём основной памяти — 220 Тбайт. Для обмена данными между узлами будет использована сеть NVIDIA Mellanox InfiniBand HDR с пропускной способностью до 200 Гбит/с на порт. Параллельная файловая система Spectrum Scale обеспечит хранение более 15 Пбайт информации.

Система будет задействована «для исследований в области источников энергии и транспортных средств, материаловедения, наук о Земле, медико-биологических наук, а также в физике элементарных частиц и космомикрофизике». Кроме того, Lenovo предоставит институту GOAST (Genomics Optimization and Scalability Tool), оптимизированное решение для задач биоинформатики, которое, в частности, позволяет кратно ускорить процесс секвенирования генома.

Постоянный URL: http://servernews.ru/1039522
22.04.2021 [00:43], Владимир Мироненко

NVIDIA установила рекорды во всех категориях ИИ-бенчмарка MLPerf Inference v1.0

Открытый инженерный консорциум MLCommons опубликовал результаты бенчмарка MLPerf Inference v1.0, набора тестов для оценки производительности систем инференса. MLPerf — признанный в отрасли бенчмарк для измерения производительности ИИ в различных задачах, включая компьютерное зрение, медицинскую визуализацию, рекомендательные системы, распознавание речи и обработку естественного языка.

В последний раунд тестирования были поданы заявки от 17 организаций, и было опубликовано 1994 результата по производительности для систем машинного обучения в категории как периферийных устройств, так и серверов центров обработки данных. В пакете MLPerf Inference v1.0 представлены новые методы, инструменты и показатели, дополняющие тесты производительности.

Эти новые показатели позволяют составлять отчёты и сравнивать энергопотребление, производительность и потребляемую мощность систем. Бенчмарк был разработан совместно со Standard Performance Evaluation Corp. (SPEC), ведущим поставщиком стандартизированных тестов и инструментов для оценки производительности современных вычислительных систем. В частности, MLPerf использует инструменты измерения мощности SPEC PTDaemon.

NVIDIA стала единственной компанией, представившей результаты всех тестов в категориях ЦОД и периферийных систем. Помимо собственных результатов NVIDIA, партнёры компании Alibaba, DellEMC, Fujitsu, Gigabyte, HPE, Inspur, Lenovo и Supermicro представили в общей сложности более 360 результатов своих систем на базе ускорителей NVIDIA.

NVIDIA сообщила, что её платформа инференса ИИ, которая недавно пополнилась графическими процессорами NVIDIA A30 и A10 для серверов, показала рекордную производительность во всех категориях. По словам компании, высокие показатели были достигнуты благодаря широким возможностям ИИ-экосистемы NVIDIA, охватывающей широкий спектр графических процессоров и программного обеспечения ИИ, включая TensorRT и NVIDIA Triton Inference Server.

Кроме того, NVIDIA продемонстрировала возможности технологии Multi-Instance GPU архитектуры NVIDIA Ampere, одновременно запустив все семь тестов MLPerf Offline на одном графическом процессоре с использованием семи инстансов MIG, которые показали практически ту же производительность (98%), как и в случае использования единственного инстанса MIG.

Постоянный URL: http://servernews.ru/1037872
17.04.2021 [21:43], Андрей Галадей

NVIDIA анонсировала поддержку Python в CUDA 11.3

NVIDIA анонсировала поддержку языка программирования Python в своей новой версии CUDA под номером 11.3. Этот язык играет ключевую роль в экосистеме приложений для науки, техники, анализа данных и глубокого обучения. В компании заявили, что давно стремились упростить использование вычислительных мощностей графических процессоров, предоставляя стандартизированные библиотеки, инструменты и ПО.

На сегодняшний день доступ к GPU и CUDA из Python может быть осуществлен только с помощью сторонних программного обеспечения, такого как Numba, CuPy, Scikit-CUDA, RAPIDS, PyCUDA, PyTorch, TensorFlow и так далее. Для каждого из этих проектов создана собственная прослойка взаимодействия между CUDA и Python.

Именно поэтому цель создания CUDA Python — унификация всей экосистемы с единым стандартным набором низкоуровневых интерфейсов для предоставления прямого доступа из Python ко всем CUDA API хоста. Это позволит упростить взаимосвязь между различными библиотеками и фреймворками.

Проект CUDA Python будет доступен на GitHub. Изначально NVIDIA предложит обёртки (wrappers) для Cython/Python для работы с драйвером CUDA и runtime API. В дальнейшем компания собирается расширить поддержку, добавив возможность напрямую работать с CUDA-библиотеками cuBLAS, cuFFT, cuDNN, nvJPEG и другими.

Постоянный URL: http://servernews.ru/1037545
15.04.2021 [21:24], Игорь Осколков

DPU BlueField — третий столп будущего NVIDIA

Во время открытия GTC’21 наибольшее внимание привлёк, конечно, анонс собственного серверного Arm-процессора NVIDIA — Grace. Говорят, из-за этого даже акции Intel просели, хотя в последних решениях самой NVIDIA процессоры x86-64 были нужны уже лишь для поддержки «обвязки» вокруг непосредственно ускорителей. Да, теперь у NVIDIA есть три точки опоры, три столпа для будущего развития: GPU, DPU и CPU. Причём расположение их именно в таком порядке неслучайно.

У процессора Grace, который выйдет только в 2023 году, даже по современным меркам «голая» производительность не так уж высока — в SPECrate2017_int его рейтинг будет 300. Но это и неважно потому, что он, как и сейчас, нужен лишь для поддержки ускорителей (которые для краткости будем называть GPU, хотя они всё менее соответствуют этому определению), что возьмут на себя основную вычислительную нагрузку.

Гораздо интереснее то, что уже в 2024 году появятся BlueField-4, для которых заявленный уровень производительности в том же SPECrate2017_int составит 160. То есть DPU (Data Processing Unit, сопроцессор для данных) формально будет всего лишь в два раза медленнее CPU Grace, но при этом включать 64 млрд транзисторов. У нынешних ускорителей A100 их «всего» 54 млрд, и это один из самых крупных массово производимых чипов на сегодня.

Значительный объём транзисторного бюджета, очевидно, пойдёт не на собственной сетевую часть, а на Arm-ядра и различные ускорители. Анонсированные в прошлом году и ставшие доступными сейчас DPU BlueField-2 намного скромнее. Но именно с их помощью NVIDIA готовит экосистему для будущих комплексных решений, где DPU действительно станут «третьим сокетом», как когда-то провозгласил стартап Fubgible, успевший анонсировать до GTC’21 и собственную СХД, и более общее решение для дата-центров. Однако подход двух компаний отличается.

Напомним основные характеристики BlueField-2. Сетевая часть, представленная Mellanox ConnectX-6 Dx, предлагает до двух портов 100 Гбит/с, причём доступны варианты и с Ethernet, и с InfiniBand. Есть отдельные движки для ускорения криптографии, регулярных выражений, (де-)компрессии и т.д. Всё это дополняют 8 ядер Cortex-A78 (до 2,5 ГГц), от 8 до 32 Гбайт DDR4-3200 ECC, собственный PCIe-свитч и возможность подключения M.2/U.2-накопителя. Кроме того, будет вариант BlueField-2X c GPU на борту. Характеристики конкретных адаптеров на базе BlueField-2 отличаются, но, в целом, перед нами полноценный компьютер. А сама NVIDIA называет его DOCA (DataCenter on a Chip Architecture), дата-центром на чипе.

Для работы с ним предлагается обширный набор разработчика DOCA SDK, который включает драйверы, фреймворки, библиотеки, API, службы и собственно среду исполнения. Все вместе они покрывают практически все возможные типовые серверные нагрузки и задачи, а также сервисы, которые с помощью SDK относительно легко перевести в разряд программно определяемых, к чему, собственно говоря, все давно стремятся. NVIDIA обещает, что DOCA станет для DPU тем же, чем стала CUDA для GPU, сохранив совместимость с последующими версиями ПО и «железа».

На базе этого программно-аппаратного стека компания уже сейчас предлагает несколько решений. Первое — платформа NVIDIA AI Enterprise для простого, быстрого и удобного внедрения ИИ-решений. В качестве основы используется VMware vSphere, где развёртываются виртуальные машины и контейнеры, что упрощает работу с инфраструктурой, при этом производительность обещана практически такая же, как и в случае bare-metal.

DPU и в текущем виде поддерживают возможность разгрузки для некоторых задач, но VMware вместе с NVIDIA переносят часть типовых задач гипервизора с CPU непосредственно на DPU. Кроме того, VMware продолжает работу над переносом своих решений с x86-64 на Arm, что вполне укладывается в планы развития Arm-экосистемы со стороны NVIDIA. Одним из направлений является 5G, причём работа ведётся по нескольким направлениям. Во-первых, сама Arm разрабатывает периферийную платформу на базе Ampere Altra, дополненных GPU и DPU.

NVIDIA Aerial A100

NVIDIA Aerial A100

Во-вторых, у NVIDIA конвергентное решение — ускоритель Aerial A100, который объединяет в одной карте собственно A100 и DPU. При этом он может использоваться как для ускорения работы собственно радиочасти, так и для обработки самого трафика и реализации различных пограничных сервисов. Там же, где не требуется высокая плотность (как в базовой станции), NVIDIA предлагает использовать более привычную EGX-платформу с раздельными GPU (от A100 и A40 до A30/A10) и DPU.

Одним из вариантов комплексного применения таких платформ является проект Morpheus. В его рамках предполагается установка DPU в каждый сервер в дата-центре. Мощностей DPU, в частности, вполне хватает для инспекции трафика, что позволяет отслеживать взаимодействие серверов, приложений, ВМ и контейнеров внутри ЦОД, а также, очевидно, применять различные политики в отношении трафика. DPU в данном случае выступают как сенсоры, данных от которых стекаются в EGX, и, вместе с тем локальными шлюзами безопасности.

Ручная настройка политик и отслеживание поведения всего парка ЦОД возможны, но не слишком эффективны. Поэтому NVIDIA предлагает как возможность обучения, так и готовые модели (с дообучением по желанию), которые исполняются на GPU внутри EGX и позволяют быстро выявить аномальное поведение, уведомить о нём и отсечь подозрительные приложения или узлы от остальной сети. В эпоху микросервисов, говорит компания, более чем актуально следить за состоянием инфраструктуры внутри ЦОД, а не только на его границе, как было раньше, когда всё внутри дата-центра по умолчанию считалось доверенной средой.

Кроме того, с помощью DPU и DOCA можно перевести инфраструктуру ЦОД на облачную модель и упростить оркестрацию. Но не только ЦОД — обновлённая суперкомпьютерная платформа DGX SuperPOD for Enterprise теперь тоже обзавелась DPU (с InfiniBand) и ПО Base Command, которые позволяют «нарезать» машину на изолированные инстансы с необходимой конфигурацией, упрощая таким образом совместное использование и мониторинг. А это, в свою очередь, повышает эффективность загрузки суперкомпьютера. Base Command выросла из внутренней системы управления Selene, собственным суперкомпьютером NVIDIA, на котором, например, компания обучает модели.

DPU доступны как отдельные устройства, так и в составе сертифицированных платформ NVIDIA и решений партнёров компании, причём спектр таковых велик. Таким образом компания пытается выстроить комплексный подход, предлагая программно-аппаратные решения вкупе с данными (моделями). Аналогичный по своей сути подход исповедует Intel, а AMD с поглощением Xilinx, надо полагать, тоже будет смотреть в эту сторону. И «угрозу» для них представляют не только GPU, но теперь и DPU. А вот новые CPU у NVIDIA, вероятно, на какое-то время останутся только в составе собственных продуктов, в независимости от того, разрешат ли компании поглотить Arm.

Постоянный URL: http://servernews.ru/1037460
14.04.2021 [16:39], Владимир Мироненко

DDN представила сертифицированные NVIDIA ИИ-решения

Компания DDN, специализирующаяся в области искусственного интеллекта (ИИ) и решений для управления многооблачными данными, запустила сертифицированный NVIDIA набор решений ИИ с оптимизированной производительностью в различных сценариях развёртывания и интеграции ИИ-систем.

Благодаря решениям DDN A3I (Accelerated, Any-Scale AI) и NVIDIA DGX A100 на базе ускорителей NVIDIA A100 и NVIDIA Mellanox InfiniBand и Ethernet, ресселеры и дистрибуторы теперь могут предоставлять корпоративным клиентам многофункциональные, простые в развёртывании и управлении интеллектуальные решения инфраструктуры ИИ, высокоэффективные и рентабельные для любого масштаба. Кроме того, компания одной из первых стала экспериментировать с портированием собственного ПО для СХД на DPU BlueField-2.

Конфигурации DDN A3I, предварительно интегрированные с инфраструктурными решениями NVIDIA DGX A100, предлагаются в нескольких вариантах, соответствующих бизнес-потребностям клиентов, с поддержкой таких сценариев использования, как системы рекомендаций ИИ, анализ изображений и обработка естественного языка, а также таких областей, как здравоохранение, автономное вождение, финансовые услуги и гибридное облако. Программа включает в себя полный набор вспомогательных инструментов продаж, инструментов для отслеживания и создания спроса, которые позволят партнёрам успешно продавать и позиционировать свои решения на основе ИИ.

Постоянный URL: http://servernews.ru/1037348
12.04.2021 [20:00], Сергей Карасёв

NVIDIA представила младшие серверные ускорители A10 и A30

Компания NVIDIA в рамках конференции GPU Technology Conference 2021 анонсировала ускорители A10 и A30, предназначенные для обработки приложений искусственного интеллекта и других задач корпоративного класса.

Модель NVIDIA A10 использует 72 ядра RT и может оперировать 24 Гбайт памяти GDDR6 с пропускной способностью до 600 Гбайт/с. Максимальное значение TDP составляет 150 Вт. Новинка выполнена в виде полноразмерной карты расширения с интерфейсом PCIe 4.0: в корпусе сервера устройство займёт один слот расширения. Производительность в вычислениях одинарной точности (FP32) заявлена на уровне 31,2 терафлопса. Новинку можно рассматривать как замену NVIDIA T4.

Модель NVIDIA A30, в свою очередь, получила исполнение в виде двухслотовой карты расширения с интерфейсом PCIe 4.0. Задействованы 24 Гбайт памяти HBM2 с пропускной способностью до 933 Гбайт/с. Показатель TDP равен 165 Вт. Обе новинки используют архитектуру Ampere с тензорными ядрами третьего поколения.

Решения подходят для применения в серверах массового сегмента, рабочих станциях, а также в составе платформы NVIDIA EGX и для периферийных вычислений.

Постоянный URL: http://servernews.ru/1037122
12.04.2021 [20:00], Сергей Карасёв

Ускоритель NVIDIA A16 рассчитан на инфраструктуры VDI

Компания NVIDIA представила сегодня акселератор корпоративного класса A16: анонс новинки состоялся в рамках мероприятия GPU Technology Conference 2021. Ускоритель поможет в организации дистанционной работы, что актуально в текущей эпидемиологической обстановке. В такой ситуации востребованы платформы виртуальных рабочих столов (VDI).

В инфраструктуре VDI среды виртуальных рабочих мест размещаются на централизованном сервере и развёртываются по запросу. Для поддержания работы таких систем как раз и предназначен ускоритель NVIDIA A16. Решение объединяет четыре графических процессора с архитектурой Ampere. Также имеются аппаратные (де-)кодеры NVENC (x4) и NVDEC (x8).

Используется 64 Гбайт памяти GDDR6 — по 16 Гбайт на процессор.Устройство позволяет формировать виртуальные GPU (vGPU) с памятью объёмом 1, 2, 4, 8 или 16 Гбайт. Имеется поддержка технологий NVIDIA Virtual PC (vPC), Virtual Applications (vApps), RTX Workstation (vWS), Virtual Compute Server (vCS).

Ускоритель выполнен в виде карты расширения с интерфейсом PCIe 4.0. В компьютерном корпусе новинка займёт два слота. Для дополнительного питания служит 8-контактный разъём; заявленный показатель TDP — 250 Вт. Поставки акселератора NVIDIA A16 начнутся в текущем году. Более точные сроки начала продаж и стоимость разработчик раскроет позднее.

Постоянный URL: http://servernews.ru/1037129
12.04.2021 [19:48], Владимир Мироненко

NVIDIA TAO, Triton и Fleet Command помогут компаниям в выборе, дообучении, оптимизации и развёртывании моделей ИИ

«Путь к созданию предприятия, основанного на искусственном интеллекте, не должен быть долгим или трудным, если вы знаете, как использовать предварительно обученные модели и инструменты, такие как NVIDIA TAO и Fleet Command», — заявил Адель Эль-Халлак (Adel El-Hallak), директор по управлению продуктами NGC.

По его словам, теперь компаниям не придётся проектировать и обучать собственную нейронную сеть с нуля, так как можно будет выбрать одну из множества доступных в каталоге NGC. Предлагаемые NVIDIA модели, охватывают широкий спектр задач ИИ — от компьютерного зрения и разговорного ИИ до понимания естественного языка и многого другого.

Многие модели в каталоге предлагаются с расширенной информацией о наборе данных для обучения, о частоте использования и с прогнозом результатов использования. Это обеспечивает прозрачность и уверенность в том, что вы выбираете подходящую модель для своего варианта использования. Выбрав модель, клиент сможет её настроить в соответствии с конкретными потребностями с помощью NVIDIA TAO.

С помощью NVIDIA Transfer Learning Toolkit предобученную модель из каталога NGC можно будет дообучить на небольших наборах данных, которые есть у пользователей, чтобы индивидуально подстроить модели под нужды клиента. Кроме того, TAO предлагает и Federated learning (федеративное обучение), которое позволяет безопасно обучить модель на данных от различных пользователей внутри зашифрованных анклавов в GPU, не открывая их никому из участников процесса.

После точной настройки модели её необходимо оптимизировать для развёртывания — сделать более компактной без ущерба для качества и возможности эффективного функционирования на целевой платформе клиента, будь то массив графических процессоров в сервере или робот с приводом от Jetson в заводском цехе. С помощью NVIDIA Triton пользователи смогут выбрать оптимальную конфигурацию для развёртывания, независимо от архитектуры модели, используемой инфраструктуры, целевого процессора или графического ускорителя, на котором она будет работать.

После того, как модель оптимизирована и готова к развёртыванию, пользователи могут легко интегрировать её с любой инфраструктурой, которая соответствует их сценарию использования или отрасли. На завершающем этапе с выбранной платформой пользователи смогут запустить NVIDIA Fleet Command для развёртывания и управления приложением ИИ на различных устройствах с графическим процессором.

Fleet Command объединяет сертифицированные NVIDIA серверы, развёрнутые на границе сети, с облаком, используя протоколы сквозной безопасности для защиты данных приложений и интеллектуальной собственности. Данные передаются между периферией и облаком в полностью зашифрованном виде. А перед развёртыванием приложения сканируются на наличие вредоносных программ и уязвимостей.

Fleet Command и элементы TAO уже используются на складах, в розничной торговле, в больницах и в производственных цехах. В числе их пользователей такие компании, как Accenture, BMW и Siemens Industrial. Основные компоненты TAO, включая инструментарий Transfer Learning Toolkit и федеративное обучение, на данный момент уже доступны клиентам.

Постоянный URL: http://servernews.ru/1037137
12.04.2021 [19:34], Владимир Мироненко

NVIDIA развивает Arm-экосистему: GPU-инстансы с Graviton2, набор HPC-разработчика на базе Ampere Altra и новые партнёрства с Marvell, MediaTek и SiPearl

Собственный серверный Arm-процессор NVIDIA Grace ещё не вышел, но компания уже формирует экосистему вокруг Arm и собственных ускорителей. NVIDIA анонсировала серию совместных проектов с использованием своих GPU и программного обеспечения с процессорами на базе Arm для широкого круга рабочих нагрузок — от облака до периферии.

В частности, анонсированы инстансы Amazon EC2 на базе AWS Graviton2 с графическими процессорами NVIDIA, поддержка разработки научных приложений и ИИ-приложений с помощью нового набора разработчиков HPC, повышение уровня видеоаналитики и функций безопасности на границе сети, а также создание нового класса ПК на базе Arm с графическими процессорами NVIDIA RTX.

В частности, NVIDIA и AWS объявили о совместном проекте по развёртыванию Arm-экземпляров с графическими процессорами в облаке. Новые экземпляры Amazon EC2 позволят разработчикам запускать Android-игры в AWS, ускорять рендеринг и кодирование, а также транслировать игры на мобильные устройства.

Также NVIDIA представила набор NVIDIA Arm HPC Developer Kit, который включает сервер с 80-ядерным процессором Ampere Altra с тактовой частотой до 3,3 ГГц, два ускорителя NVIDIA A100, а также два DPU NVIDIA BlueField-2, которые ускоряют решение ключевых задач безопасности, передачи и хранения данных в ЦОД, включая изоляцию, , управление ключами, RDMA / RoCE, GPU Direct, хранение эластичных блоков, сжатие данных и многое другое.

Для этой платформы компания предлагает NVIDIA HPC SDK: набор компиляторов, библиотек и инструментов, которые позволяют создавать и переносить GPU-приложения HPC и ИИ в Arm-окружение. Среди первых ведущих вычислительных центров, развернувших новые платформы разработки, есть Ок-Риджская национальная лаборатория, Национальная лаборатория Лос-Аламоса и Университет Стоуни-Брук в США, а также Национальный центр высокопроизводительных вычислений на Тайване и Корейский институт науки и техники. NVIDIA Arm HPC Developer Kit будет доступен в 3 квартале 2021 года.

В области периферийных вычислений NVIDIA объявила о расширении сотрудничества с Marvell с целью объединения DPU OCTEON с графическими процессорами для ускорения облачных, корпоративных, операторских и пограничных приложений, и, в целом, повышения производительности систем и сокращения задержек от периферии до облака.

В категории ПК компания сотрудничает с MediaTek, одним из крупнейших мировых поставщиков SoC на базе Arm, чтобы создать эталонную платформу, поддерживающую Chromium, Linux и NVIDIA SDK. Сочетание графических процессоров NVIDIA RTX с высокопроизводительными, энергоэффективными процессорами Arm Cortex позволит использовать в ноутбуках графику с трассировкой лучей и искусственный интеллект.

Кроме того, NVIDIA сотрудничает и с другими партнёрами, включая Fujitsu и SiPearl. Первая, напомним, разработала самый мощный в мире суперкомпьютер Fugaku, который по совместительству является и самой производительной системой на базе Arm-процессоров, пусть и довольно специфичных. Вторая же пока всё ещё занимается разработкой Arm-процессоров SiPearl Rhea для будущих европейских суперкомпьютеров.

Постоянный URL: http://servernews.ru/1037079
12.04.2021 [19:26], Игорь Осколков

NVIDIA анонсировала серверные Arm-процессоры Grace и будущие суперкомпьютеры на их базе

В рамках GTC’21 NVIDIA анонсировала Arm-процессоры Grace серверного класса, которые станут компаньонами будущих ускорителей компании. Это не означает полный отказ от x86-64, но это позволит компании предложить клиентам более глубоко оптимизированные, а, значит, и более быстрые решения. NVIDIA говорит, что новый CPU позволит на порядок повысить производительность систем на его основе в ИИ и HPC-задачах в сравнении с современными решениями.

Процессор назван в честь Грейс Хоппер (Grace Hopper), одного из пионеров информатики и создательницы целого ряда основополагающих концепций и инструментов программирования. И это имя нам уже встречалось в контексте NVIDIA — в конце 2019 года компания зарегистрировала торговую марку Hopper для MCM-решений.

Компания не готова раскрыть полные технически характеристики новинки, которая станет доступна в начале 2023 года, но приводит некоторые интересные детали. В частности, процессор будет использовать Arm-ядра Neoverse следующего поколения (надо полагать, уже на базе ARMv9),  которые позволят получить в SPECrate2017_int_base результат выше 300. Для сравнения — система с парой современных AMD EPYC 7763 в том же бенчмарке показывает результат на уровне 800.

Вторая особенность Grace — использование памяти LPDRR5X (с ECC, естественно). В сравнении с DDR4 она будет иметь вдвое большую пропускную способность (ПСП) и в 10 раз меньшее энергопотребление. Число и скорость каналов памяти не уточняются, но говорится о суммарной ПСП в более чем 500 Гбайт/с на процессор. А у того же EPYC 7763 теоретический пик ПСП чуть больше 200 Гбайт/с. Очевидно, что другие процессоры к моменту выхода NVIDIA Grace тоже увеличат и производительность, и пропускную способность памяти. Гораздо более интересный вопрос, сколько линий PCIe 5.0 они смогут предложить. Если допустить, что у них будет 128 линий, то общая скорость для них составит чуть больше 500 Гбайт/с.

И NVIDIA этого мало — процессоры Grace получат прямое, кеш-когерентное подключение к GPU по NVLInk 4.0 (14x) с суммарной пропускной способностью боле 900 Гбайт/с. GPU тоже, как и прежде, будут общаться напрямую друг с другом по NVLink. Скорость связи между двумя CPU превысит 600 Гбайт/с, а в сборке из четырёх модулей CPU+GPU суммарная скорость обмена данными между системной памятью процессоров и GPU в такой mesh-сети составит 2 Тбайт/с. Но самое интересное тут то, что у памяти CPU (LPDDR5X) и GPU (HBM2e) в такой системе будет единое адресное пространство. Собственно говоря, таким образом компания решает давно назревшую проблему дисбаланса между скоростью обмена данными и доступным объёмом памяти в различных частях вычислительного комплекса.

Для сравнения можно посмотреть на архитектуру нынешних DGX A100 или HGX. У каждого ускорителя A100 есть 40 или 80 Гбайт набортной памяти HBM2e (1555 или 2039 Гбайт/с соответственно) и NVLInk-подключение на 600 Гбайт/c, которое идёт к коммутатору NVSwitch, имеющего суммарную пропускную способность 1,8 Тбайт/с. Всего таких коммутаторов шесть, а объединяют они восемь ускорителей. Внутри этой NVLInk-фабрики сохраняется достаточно высокая скорость обмена данными, но как только мы выходим за её пределы, ситуация меняется.

Схема NVIDIA DGX A100. Источник: Microway

Схема NVIDIA DGX A100. Источник: Microway

Каждый ускоритель A100 имеет второй интерфейс — PCIe 4.0 x16 (64 Гбайт/с), который уходит к PCIe-коммутатору, каковых в DGX A100 имеется четыре. Коммутаторы, в свою очередь, объединяют между собой сетевые 200GbE-адаптеры (суммарно в дуплексе до 1,6 Тбайт/с для связи с другими DGX A100), NVMe-накопители и CPU. У каждого CPU может быть довольно много памяти (от 512 Гбайт), но её скорость ограничена упомянутыми выше 200 Гбайт/c.

Узким местом во всей этой схеме является как раз PCIe, поэтому переход исключительно на NVLInk позволит NVIDIA получить большой объём памяти при сохранении приемлемой ПСП, не тратясь лишний раз на дорогую локальную HBM2e у каждого GPU. Впрочем, если компания не переведёт на NVLink и собственные будущие DPU Bluefield-3 (400GbE), которые будут скармливать связке CPU+GPU по, например, GPUDirect Storage данные из внешних NVMe-oF хранилищ и объединять узлы DGX POD, то PCIe 5.0 в составе Grace стоит ждать. Это опять-таки упростит и повысит эффективность масштабирования.

В целом, всё это необходимо из-за быстрого роста объёма ИИ-моделей — в GPT-3 уже 175 млрд параметров, а в течение пары лет можно ожидать модели уже с 0,5-1 трлн параметров. Им потребуются не только новые решения для обучения, но и для инференса. То же касается и физических расчётов — модели становятся всё больше и требовательнее + ИИ здесь тоже активно внедряется. Параллельно с разработкой Grace NVIDIA развивает программную экосистему вокруг Arm и своих решений, готовя почву для будущих систем на их основе.

Одной из такой систем станет суперкомпьютер Alps в Швейцарском национальном компьютерном центре (Swiss National Computing Centre, CSCS), который придёт на смену Piz Daint (12 место в нынешнем рейтинге TOP500). Этот суперкомпьютер серии HPE Cray EX, в частности, сможет в семь раз быстрее обучить модель GPT-3, чем машина NVIDIA Selene (5 место в TOP500). Впрочем, на нём будут выполняться и классические HPC-задачи в области метеорологии, физики, химии, биологии, экономики и так далее. Ввод в эксплуатацию намечен на 2023 год. Тогда же в США появится аналогичная машина от HPE в Лос-Аламосской национальной лаборатории (LANL). Она дополнит систему Crossroads, использующую исключительно процессоры Intel Xeon Sapphire Rapids.

Постоянный URL: http://servernews.ru/1037136
Система Orphus