Материалы по тегу: a100

02.12.2021 [21:22], Алексей Степин

Суперкомпьютер NREL Kestrel получит неанонсированные ускорители NVIDIA A100NEXT

Заметная часть недавно анонсированных проектов HPC-систем c заявленной производительностью от десятков петафлопс базируется на использовании процессоров AMD EPYC и ускорителей Instinct, однако NREL остановила свой выбор на Intel Xeon Sapphire Rapids и грядущих ускорителях NVIDIA A100NEXT. Последние ещё не анонсированы, но и 44-Пфлопс машина под названием Kestrel должна вступить в строй лишь в 2023 году.

Вероятнее всего, новые ускорители будут представлены NVIDIA в следующем году, что неплохо согласуется с планами компании по выпуску новых решений каждые два года. К сожалению, точных технических данных, относящихся к NVIDIA A100NEXT пока нет. Можно лишь осторожно предположить, что следующая итерация ускорителей получит более тонкий техпроцесс 5-нм класса, и удвоит число вычислительных блоков благодаря переходу на чиплетную компоновку, например, из четырёх кристаллов по 25 млрд транзисторов.

Cуперкомпьютер Eagle. Фото: NREL

Cуперкомпьютер Eagle. Фото: NREL

Причины, по которым NREL решила использовать процессоры Sapphire Rapids не совсем ясны. И хотя это заведение исторически тяготело к CPU Intel — текущий суперкомпьютер Eagle производительностью 8 Пфлопс построен на базе Intel Xeon Skylake-SP и почти лишён ускорителей, — у NVIDIA будут собственные процессоры Grace, выход которых намечен на 2023 год. Возможно, такое решение принято, чтобы избежать проблем с поставками CPU NVIDIA. К тому же процессоры Intel поддерживают AVX-512, причём в Sapphire Rapids есть поддержка новых форматов (AVX-512 FP16) и расширения для матричных вычислений Intel AMX.

Основой же новой системы Kestrel станет платформа HPE Cray EX с интерконнектом HPE Slingshot и СХД Cray ClusterStor E1000 общей ёмкостью более 75 Пбайт. Что касается охлаждения, то Kestrel, как и его предшественники, будет использовать СЖО с «горячим» теплоносителем. Это позволит достигнуть высокой энергоэффективности — средний коэффициент PUE нового суперкомпьютера составит примерно 1,036. Для организации, занимающейся поиском эффективных и чистых источников энергии такой подход выглядит более чем обоснованно.

Постоянный URL: http://servernews.ru/1055055
19.11.2021 [16:02], Владимир Мироненко

В Yandex.Cloud стали доступны инстансы с NVIDIA A100 (80 Гбайт)

В Yandex.Cloud появились ускорители NVIDIA A100 (80 Гбайт). Они уже доступны в виртуальных серверах, для разработки и эксплуатации ИИ-моделей в Yandex DataSphere, а также при работе с облачными сервисами контейнерной разработки (Managed Service for Kubernetes). Они уже используются «М.Видео-Эльдорадо» и VizorLabs, а также участниками программы Yandex.Cloud для науки и образования.

В настоящее время доступны конфигурации виртуальных машин с одним (28 vCPU, 119 Гбайт RAM) и восемью (224 vCPU, 952 Гбайт RAM) NVIDIA A100 в зоне доступности ru-central1-a. В ближайшем будущем список предложений пополнится ВМ с двумя и четырьмя GPU NVIDIA A100. Инстансы используют процессоры AMD EPYC и PCIe-версии ускорителей с поддержкой NVLink. vGPU-решения будут доступны в сервисе Yandex DataSphere. GPU-инстансы доступны всем пользователям Yandex.Cloud после запроса на увеличение квоты на них.

Фото: Яндекс

Фото: Яндекс

Скорость развёртывания решений составляет всего несколько минут после оформления заказа (включая время на загрузку ОС). Стоимость аренды минимальной конфигурации с одним GPU и 3-Гбайт накопителем составляет 6460,34 руб./день. Yandex.Cloud предлагает систему скидок — так, есть возможность резервирования ресурсов на длительный срок и доступны прерываемые инстансы (не более 24 ч. непрерывной работы + принудительная остановка в любой момент) для расчёта краткосрочных задач.

Постоянный URL: http://servernews.ru/1054124
11.11.2021 [13:30], Сергей Карасёв

«Сбер» запустил самый мощный в России суперкомпьютер Christofari Neo производительностью 12 Пфлопс

SberCloud, российский облачный провайдер, представил новый комплекс высокопроизводительных вычислений — систему под названием Christofari Neo (Кристофари Нео). Ожидается, что суперкомпьютер позволит «Сберу» вывести скорость обучения моделей на новый уровень. С 1 декабря система будет доступна и пользователям ML Space.

В основу нового вычислительного комплекса положены системы NVIDIA DGX A100 на базе 80-Гбайт версии ускорителя, объединённые интерконнектом InfiniBand HDR (200 Гбайт/с) и дополненные СХД со скоростью 2 Тбайт/с. Суммарное количество ускорителей превышает 700. Заявленная производительность достигает 11,95 Пфлопс. Для сравнения: быстродействие системы первого поколения — Christofari — составляет около 6,67 Пфлопс. Этот вычислительный комплекс оперирует более чем 1000 ускорителей Tesla v100.

Источник: SberCloud

Источник: SberCloud

«Текущие и новые клиенты SberCloud получат доступ к мощностям сразу двух суперкомпьютеров. Важно, что осталось неизменным — это лёгкость в использовании нового суперкомпьютера, потому что Christofari Neo работает в тесной интеграции с платформой ML Space и Christofari. Это значит, что клиенты получат доступ к нужной мощности так же быстро и просто, как прежде», — заявляет SberCloud. Применять Christofari Neo планируется для решения сложных задач, связанных с обучением современных ИИ-моделей. Доступ к суперкомпьютеру уже получили SberDevices и Sber AI.

Постоянный URL: http://servernews.ru/1053494
23.09.2021 [13:49], Владимир Мироненко

Selectel предлагает бесплатно протестировать NVIDIA DGX A100

Selectel, российский провайдер облачных услуг и дата-центров, объявил о пополнении портфолио своих решений вычислительной системой NVIDIA DGX A100 производительностью 5 Пфлопс, оптимизированной для работы с ИИ — от анализа данных до тренировки и инференса. Решение подойдёт крупным компаниям в сферах AI, ML и обработки данных, исследовательским организациям, промышленным компаниям, а также организациям в сфере образования и науки. Прямо сейчас Selectel предлагает бесплатно протестировать новинку.

NVIDIA DGX A100 представляет собой стоечный сервер в форм-факторе 6U, оснащённый 8 ускорителями NVIDIA Tesla A100 с тензорными ядрами и общим объёмом памяти 320 Гбайт (по 40 Гбайт у каждого). Ёмкость NVMe SSD (PCIe 4.0) составляет 15 Тбайт. Объём оперативной памяти равен 1 Тбайт — всего шестнадцать слотов для модулей памяти DDR4-3200 объёмом 64 Гбайт. Этого достаточно для решения даже самых сложных задач в области ИИ.

В NVIDIA DGX A100 используются два 64-ядерных процессора AMD EPYC 7742 поколения Rome с возможностью одновременной обработки до 128 потоков инструкций и рабочей частотой 2,25 ГГц (максимальная — 3,4 ГГц). Система также включает 6 коммутаторов NVIDIA NVSwitch шестого поколения, 9 адаптеров Mellanox ConnectX-6 VPI HDR/200GbE.

В данной конфигурации система потребляет порядка 5 кВт, но эффективная воздушная система охлаждения позволяет удерживать температуры CPU и GPU в пределах +69 °C. В портфолио Selectel уже есть серверы с восемью PCIe-ускорителями NVIDIA A100, но DGX-система использует более мощные SXM4-версии A100 и быстрый интерконнект NVSwitch. Компания сравнила обе версии A100 в GeekBench 5 Compute и ai-benchmark.

Первый тест оценивает общие вычислительные возможности, а второй позволяет замерить скорость обучения и применения различных нейронных сетей на задачах распознавания и классификации. Если же вы хотите самостоятельно оценить возможности DGX A100 в ваших задачах, то Selectel предлагает бесплатно протестировать новинку. Заявку можно оставить на странице акции.

Постоянный URL: http://servernews.ru/1049675
25.08.2021 [15:40], Сергей Карасёв

«Тренировочный» суперкомпьютер Polaris получит 560 процессоров AMD EPYC и 2240 ускорителей NVIDIA A100

Аргоннская национальная лаборатория Министерства энергетики США анонсировала проект высокопроизводительного вычислительного комплекса Polaris. Созданием этого суперкомпьютера займутся специалисты Hewlett Packard Enterprise (HPE), а его ввод в эксплуатацию запланирован на начало следующего года.

В основу системы лягут 280 узлов HPE Apollo 6500 Gen10 Plus. Говорится об использовании 560 процессоров AMD EPYC второго и третьего поколений, а также 2240 ускорителей NVIDIA A100. Узлы будут объединены интерконнектом HPE Slingshot, а мониторинг и управление системой будет осуществляться HPE Performance Cluster Manager.

Пиковое быстродействие комплекса составит приблизительно 44 Пфлопс на FP64-операциях. Теоретическая производительность при работе с ИИ-задачами будет достигать 1,4 Эфлопс. Использовать суперкомпьютер планируется при решении ряда сложных задач. Среди них названы исследования в космической сфере, изучение биологии вирусов, проекты в области чистой энергии, производства и пр.

Аргоннская национальная лаборатория

Аргоннская национальная лаборатория

Отмечается, что создание Polaris поможет подготовиться, потренировавшись в переносе и оптимизации ПО, к появлению вычислительной системы Aurora экзафлопсного уровня, выход которой неоднократно откладывался. Это совместный проект Аргоннской национальной лаборатории, компаний Intel и HPE. Данная система обеспечит в четыре раза более высокое быстродействие по сравнению с нынешними суперкомпьютерами лаборатории. Первой экзафлопсной системой в США станет суперкомпьютер Frontier на базе AMD EPYC и Instinct.

Постоянный URL: http://servernews.ru/1047542
29.06.2021 [15:30], Сергей Карасёв

Inspur представила GPU-сервер NF5488LA5 с жидкостным охлаждением

Компания Inspur анонсировала высокопроизводительный сервер NF5488LA5, предназначенный для решения задач, связанных с искусственным интеллектом и глубоким машинным обучением. Особенность устройства заключается в использовании эффективной системы жидкостного охлаждения.

Данная 4U-система построена на базе решения NVIDIA HGX, состоящей из двух процессоров AMD EYPC 7003 и восьми ускорителей NVIDIA A100, объединённых NVSwitch. Система жидкостного охлаждения охватывает все ключевые компоненты, включая коммутатор NVSwitch, центральные процессоры и акселераторы NVIDIA A100. Устройство может быть подключено к мобильному блоку распределения теплоносителя (CDU).

Модель NF5488A5 / Inspur

Модель NF5488A5 / Inspur

Благодаря мобильному CDU-блоку RACKCDU-F008 заказчики смогут устанавливать серверы непосредственно в шкафах общего назначения с воздушным охлаждением. При этом не придётся модернизировать всю систему охлаждения в серверной комнате. Отмечается также, что благодаря жидкостному охлаждению сервер может использовать ускорители с максимальным значением TDP 500 Вт.

Постоянный URL: http://servernews.ru/1043091
29.06.2021 [13:33], Сергей Карасёв

Super Micro объявила о поддержке нового PCIe-ускорителя NVIDIA A100 (80 Гбайт)

Компания Super Micro Computer сообщила о том, что её серверы поддерживают новейший акселератор NVIDIA A100, выполненный в виде карты расширения с интерфейсом PCIe. Речь идёт о модели, которая снабжена 80 Гбайт памяти типа HBM2e.

Названный акселератор предназначен для обработки сложных вычислительных задач, связанных с искусственным интеллектом и глубоким машинным обучением. Решение обеспечивает пропускную способность памяти более 2 Тбайт/с. Однако в сравнении с 40-Гбайт версией PCIe-ускорителя у 80-Гбайт варианта TDP выше на 50 Вт, что в случае HGX-платформы на 8 ускорителей даёт «лишние» 400 Вт.

Здесь и ниже изображения Super Micro Computer

Как сообщается, ускорителями NVIDIA A100 с 80 Гбайт памяти могут комплектоваться серверы Super Micro на основе процессоров Intel Xeon Scalable третьего поколения и AMD EPYC третьего поколения. В частности, новыми акселераторами может оснащаться система SuperServer SYS-420GP-TNR с поддержкой двух чипов Intel Xeon Scalable. Этот сервер допускает установку до десяти графических ускорителей. Кроме того, с новыми картами A100 совместим сервер AS-4124GS-TNR на платформе AMD EPYC 7003.

Постоянный URL: http://servernews.ru/1043078
29.06.2021 [13:25], Владимир Мироненко

МТС запустила суперкомпьютер MTS GROM: третья российская система в TOP500

Российская компания МТС объявила о запуске суперкомпьютера MTS GROM, который будет использоваться для развития цифровой экосистемы. С производительностью 2,26 Пфлопс в мировом рейтинге высокопроизводительных машин TOP500 он находится на 241 месте, а среди российских суперкомпьютеров рейтинга он занимает третье место (из трёх).

Суперкомпьютер MTS GROM построен на базе программно-аппаратной платформы NVIDIA DGX A100 и включает 155 узлов: 2 × AMD EPYC 7742 (64C/128T, 2,25/2,4 ГГц, 256 Мбайт L3-кеш, TDP 225 Вт) + 8 × NVIDIA A100 (40 Гбайт) c NVSwitch. Суммарный объём RAM составляет 20,48 Тбайт, а число ядер CPU достигает 19840. Работает система под управлением Ubuntu 20.04.1 LTS.

Узлы объединены посредством InfiniBand, а для хранения данных используется NVMe-oF СХД NetApp, благодаря чему достигается сверхбыстрое взаимодействие вычислительных узлов с СХД для сокращения времени обучения ИИ-моделей. Система построена является воплощением NVIDIA DGX SuperPOD for Enterprise и была развёрнута всего за месяц.

С помощью нового суперкомпьютера Центр искусственного интеллекта МТС планирует реализовывать внутренние и внешние проекты в области клиентского сервиса и повышения операционной эффективности бизнеса. В частности, MTS GROM будет полезен образовательным учреждениям, крупным научным и медицинским центрам в исследованиях, связанных с моделированием сложных процессов.

Как сообщает компания, «в дальнейшем высокопроизводительные мощности MTS GROM станут доступны российским компаниям в портфеле провайдера #CloudMTS. Это позволит крупному бизнесу кратно сократить время на разработку и внедрение проектов на основе искусственного интеллекта и больших данных. Стартапам — в сотни раз снизить затраты на высокопроизводительные вычисления для анализа речи, обработки видео и распознавания лиц». Воспользоваться мощностями MTS GROM можно будет, оставив заявку на сайте #CloudMTS.

«МТС формирует цифровую экосистему для российских компаний. На базе MTS GROM мы будем развивать самые перспективные технологии, связанные с искусственным интеллектом, анализом больших данных и облачными решениями. Суперкомпьютер MTS GROM призван повысить технологичность компании, а также лечь в основу будущих сервисов, которые бизнес и научные организации смогут получить в облаке #CloudMTS, значительно экономя», — отметил директор облачного бизнеса МТС Олег Мотовилов.

Постоянный URL: http://servernews.ru/1043086
28.06.2021 [13:22], Алексей Степин

Обновление NVIDIA HGX: PCIe-вариант A100 с 80 Гбайт HBM2e, InfiniBand NDR и Magnum IO с GPUDirect Storage

На суперкомпьютерной выставке-конференции ISC 2021 компания NVIDIA представила обновление платформы HGX A100 для OEM-поставщиков, которая теперь включает PCIe-ускорители NVIDIA c 80 Гбайт памяти, InfiniBand NDR и поддержку Magnum IO с GPUDirect Storage.

В основе новинки лежат наиболее продвинутые на сегодняшний день технологии, имеющиеся в распоряжении NVIDIA. В первую очередь, это, конечно, ускорители на базе архитектуры Ampere, оснащённые процессорами A100 с производительностью почти 10 Тфлопс в режиме FP64 и 624 Топс в режиме тензорных вычислений INT8.

HGX A100 предлагает 300-Вт версию ускорителей с PCIe 4.0 x16 и удвоенным объёмом памяти HBM2e (80 Гбайт). Увеличена и пропускная способность (ПСП), в новой версии ускорителя она достигла 2 Тбайт/с. И если по объёму и ПСП новинки догнали SXM-версию A100, то в отношении интерконнекта они всё равно отстают, так как позволяют напрямую объединить посредством NVLink только два ускорителя.

В качестве сетевой среды в новой платформе NVIDIA применена технология InfiniBand NDR со скоростью 400 Гбит/с. Можно сказать, что InfiniBand догнала Ethernet, хотя не столь давно её потолком были 200 Гбит/с, а в плане латентности IB по-прежнему нет равных. Сетевые коммутаторы NVIDIA Quantum 2 поддерживают до 64 портов InfiniBand NDR и вдвое больше для скорости 200 Гбит/с, а также имеют модульную архитектуру, позволяющую при необходимости нарастить количество портов NDR до 2048. Пропускная способность при этом может достигать 1,64 Пбит/с.

Технология NVIDIA SHARP In-Network Computing позволяет компании заявлять о 32-крантом превосходстве над системами предыдущего поколения именно в области сложных задач машинного интеллекта для индустрии и науки. Естественно, все преимущества машинной аналитики используются и внутри самого продукта — технология UFM Cyber-AI позволяет новой платформе исправлять большинство проблем с сетью на лету, что минимизирует время простоя.

Отличным дополнением к новым сетевым возможностями является технология GPUDirect Storage, которая позволяет NVMe-накопителям общаться напрямую с GPU, минуя остальные компоненты системы. В качестве программной прослойки для обслуживания СХД новая платформа получила систему Magnum IO с поддержкой вышеупомянутой технологии, обладающую низкой задержкой ввода-вывода и по максимуму способной использовать InfiniBand NDR.

Три новых ключевых технологии NVIDIA помогут супервычислениям стать ещё более «супер», а суперкомпьютерам следующего поколения — ещё более «умными» и производительными. Достигнуты договорённости с такими крупными компаниями, как Atos, Dell Technologies, HPE, Lenovo, Microsoft Azure и NetApp. Решения NVIDIA используются как в индустрии — в качестве примера можно привести промышленный суперкомпьютер Tesla Automotive, так и в ряде других областей.

В частности, фармакологическая компания Recursion использует наработки NVIDIA в области машинного обучения для поиска новых лекарств, а национальный научно-исследовательский центр энергетики (NERSC) применяет ускорители A100 в суперкомпьютере Perlmutter при разработке новых источников энергии. И в дальнейшем NVIDIA продолжит своё наступление на рынок HPC, благо, она может предложить заказчикам как законченные аппаратные решения, так и облачные сервисы, также использующие новейшие технологии компании.

Постоянный URL: http://servernews.ru/1043002
02.06.2021 [00:24], Владимир Мироненко

Microsoft Azure объявила о доступности инстансов с NVIDIA A100

Microsoft Azure объявила о доступности инстансов ND A100 v4, своих самых мощных виртуальных машин на базе ускорителей NVIDIA A100 для работы с ИИ и высокопроизводительных вычислений (HPC) суперкомпьютерного класса. ND A100 v4 имеет восемь NVIDIA A100 (40 Гбайт), 96 ядер CPU (AMD EPYC), 900 Гбайт RAM, локальное NVMe-хранилище на 6,5 Тбайт и подключение HDR InfiniBand, обеспечивающее пропускную способность 200 Гбит/с на каждый ускоритель, т.е. суммарно 1,6 Тбит/с.

Стоимость аренды базового инстанса Standard_ND96asr_v4 указанной выше конфигурации начинается от $27,2/час. Для наиболее требовательных рабочих нагрузок возможно создание кластеров ND A100 v4, объединяющих с помощью InfiniBand тысячи ускорителей.

Чтобы упростить и ускорить разработку, каталог NVIDIA NGC предлагает готовые к использованию платформы приложений, оптимизированные для GPU, контейнеры, предварительно обученные модели, библиотеки, SDK и Helm-пакеты. Виртуальные машины ND A100 v4 также поддерживаются Azure Machine Learning, сервисом для интерактивной разработки ИИ, распределённого обучения, инференса и автоматизации с помощью ML Ops.

Развёртывание систем машинного обучения на базе ND A100 v4 упрощается с помощью NVIDIA Triton Inference Server, открытого решения, интегрированного с Azure ML и способного максимизировать производительность и использование как графического, так и центрального процессора, и минимизировать эксплуатационные расходы на развёртывание. Кроме того, вскоре появится возможность использования Azure Kubernetes Service для развёртывания и управления контейнерными приложениями на ND A100 v4.

Постоянный URL: http://servernews.ru/1040993
Система Orphus