Материалы по тегу: a100

29.06.2021 [15:30], Сергей Карасёв

Inspur представила GPU-сервер NF5488LA5 с жидкостным охлаждением

Компания Inspur анонсировала высокопроизводительный сервер NF5488LA5, предназначенный для решения задач, связанных с искусственным интеллектом и глубоким машинным обучением. Особенность устройства заключается в использовании эффективной системы жидкостного охлаждения.

Данная 4U-система построена на базе решения NVIDIA HGX, состоящей из двух процессоров AMD EYPC 7003 и восьми ускорителей NVIDIA A100, объединённых NVSwitch. Система жидкостного охлаждения охватывает все ключевые компоненты, включая коммутатор NVSwitch, центральные процессоры и акселераторы NVIDIA A100. Устройство может быть подключено к мобильному блоку распределения теплоносителя (CDU).

Модель NF5488A5 / Inspur

Модель NF5488A5 / Inspur

Благодаря мобильному CDU-блоку RACKCDU-F008 заказчики смогут устанавливать серверы непосредственно в шкафах общего назначения с воздушным охлаждением. При этом не придётся модернизировать всю систему охлаждения в серверной комнате. Отмечается также, что благодаря жидкостному охлаждению сервер может использовать ускорители с максимальным значением TDP 500 Вт.

Постоянный URL: http://servernews.ru/1043091
29.06.2021 [13:33], Сергей Карасёв

Super Micro объявила о поддержке нового PCIe-ускорителя NVIDIA A100 (80 Гбайт)

Компания Super Micro Computer сообщила о том, что её серверы поддерживают новейший акселератор NVIDIA A100, выполненный в виде карты расширения с интерфейсом PCIe. Речь идёт о модели, которая снабжена 80 Гбайт памяти типа HBM2e.

Названный акселератор предназначен для обработки сложных вычислительных задач, связанных с искусственным интеллектом и глубоким машинным обучением. Решение обеспечивает пропускную способность памяти более 2 Тбайт/с. Однако в сравнении с 40-Гбайт версией PCIe-ускорителя у 80-Гбайт варианта TDP выше на 50 Вт, что в случае HGX-платформы на 8 ускорителей даёт «лишние» 400 Вт.

Здесь и ниже изображения Super Micro Computer

Как сообщается, ускорителями NVIDIA A100 с 80 Гбайт памяти могут комплектоваться серверы Super Micro на основе процессоров Intel Xeon Scalable третьего поколения и AMD EPYC третьего поколения. В частности, новыми акселераторами может оснащаться система SuperServer SYS-420GP-TNR с поддержкой двух чипов Intel Xeon Scalable. Этот сервер допускает установку до десяти графических ускорителей. Кроме того, с новыми картами A100 совместим сервер AS-4124GS-TNR на платформе AMD EPYC 7003.

Постоянный URL: http://servernews.ru/1043078
29.06.2021 [13:25], Владимир Мироненко

МТС запустила суперкомпьютер MTS GROM: третья российская система в TOP500

Российская компания МТС объявила о запуске суперкомпьютера MTS GROM, который будет использоваться для развития цифровой экосистемы. С производительностью 2,26 Пфлопс в мировом рейтинге высокопроизводительных машин TOP500 он находится на 241 месте, а среди российских суперкомпьютеров рейтинга он занимает третье место (из трёх).

Суперкомпьютер MTS GROM построен на базе программно-аппаратной платформы NVIDIA DGX A100 и включает 155 узлов: 2 × AMD EPYC 7742 (64C/128T, 2,25/2,4 ГГц, 256 Мбайт L3-кеш, TDP 225 Вт) + 8 × NVIDIA A100 (40 Гбайт) c NVSwitch. Суммарный объём RAM составляет 20,48 Тбайт, а число ядер CPU достигает 19840. Работает система под управлением Ubuntu 20.04.1 LTS.

Узлы объединены посредством InfiniBand, а для хранения данных используется NVMe-oF СХД NetApp, благодаря чему достигается сверхбыстрое взаимодействие вычислительных узлов с СХД для сокращения времени обучения ИИ-моделей. Система построена является воплощением NVIDIA DGX SuperPOD for Enterprise и была развёрнута всего за месяц.

С помощью нового суперкомпьютера Центр искусственного интеллекта МТС планирует реализовывать внутренние и внешние проекты в области клиентского сервиса и повышения операционной эффективности бизнеса. В частности, MTS GROM будет полезен образовательным учреждениям, крупным научным и медицинским центрам в исследованиях, связанных с моделированием сложных процессов.

Как сообщает компания, «в дальнейшем высокопроизводительные мощности MTS GROM станут доступны российским компаниям в портфеле провайдера #CloudMTS. Это позволит крупному бизнесу кратно сократить время на разработку и внедрение проектов на основе искусственного интеллекта и больших данных. Стартапам — в сотни раз снизить затраты на высокопроизводительные вычисления для анализа речи, обработки видео и распознавания лиц». Воспользоваться мощностями MTS GROM можно будет, оставив заявку на сайте #CloudMTS.

«МТС формирует цифровую экосистему для российских компаний. На базе MTS GROM мы будем развивать самые перспективные технологии, связанные с искусственным интеллектом, анализом больших данных и облачными решениями. Суперкомпьютер MTS GROM призван повысить технологичность компании, а также лечь в основу будущих сервисов, которые бизнес и научные организации смогут получить в облаке #CloudMTS, значительно экономя», — отметил директор облачного бизнеса МТС Олег Мотовилов.

Постоянный URL: http://servernews.ru/1043086
28.06.2021 [13:22], Алексей Степин

Обновление NVIDIA HGX: PCIe-вариант A100 с 80 Гбайт HBM2e, InfiniBand NDR и Magnum IO с GPUDirect Storage

На суперкомпьютерной выставке-конференции ISC 2021 компания NVIDIA представила обновление платформы HGX A100 для OEM-поставщиков, которая теперь включает PCIe-ускорители NVIDIA c 80 Гбайт памяти, InfiniBand NDR и поддержку Magnum IO с GPUDirect Storage.

В основе новинки лежат наиболее продвинутые на сегодняшний день технологии, имеющиеся в распоряжении NVIDIA. В первую очередь, это, конечно, ускорители на базе архитектуры Ampere, оснащённые процессорами A100 с производительностью почти 10 Тфлопс в режиме FP64 и 624 Топс в режиме тензорных вычислений INT8.

HGX A100 предлагает 300-Вт версию ускорителей с PCIe 4.0 x16 и удвоенным объёмом памяти HBM2e (80 Гбайт). Увеличена и пропускная способность (ПСП), в новой версии ускорителя она достигла 2 Тбайт/с. И если по объёму и ПСП новинки догнали SXM-версию A100, то в отношении интерконнекта они всё равно отстают, так как позволяют напрямую объединить посредством NVLink только два ускорителя.

В качестве сетевой среды в новой платформе NVIDIA применена технология InfiniBand NDR со скоростью 400 Гбит/с. Можно сказать, что InfiniBand догнала Ethernet, хотя не столь давно её потолком были 200 Гбит/с, а в плане латентности IB по-прежнему нет равных. Сетевые коммутаторы NVIDIA Quantum 2 поддерживают до 64 портов InfiniBand NDR и вдвое больше для скорости 200 Гбит/с, а также имеют модульную архитектуру, позволяющую при необходимости нарастить количество портов NDR до 2048. Пропускная способность при этом может достигать 1,64 Пбит/с.

Технология NVIDIA SHARP In-Network Computing позволяет компании заявлять о 32-крантом превосходстве над системами предыдущего поколения именно в области сложных задач машинного интеллекта для индустрии и науки. Естественно, все преимущества машинной аналитики используются и внутри самого продукта — технология UFM Cyber-AI позволяет новой платформе исправлять большинство проблем с сетью на лету, что минимизирует время простоя.

Отличным дополнением к новым сетевым возможностями является технология GPUDirect Storage, которая позволяет NVMe-накопителям общаться напрямую с GPU, минуя остальные компоненты системы. В качестве программной прослойки для обслуживания СХД новая платформа получила систему Magnum IO с поддержкой вышеупомянутой технологии, обладающую низкой задержкой ввода-вывода и по максимуму способной использовать InfiniBand NDR.

Три новых ключевых технологии NVIDIA помогут супервычислениям стать ещё более «супер», а суперкомпьютерам следующего поколения — ещё более «умными» и производительными. Достигнуты договорённости с такими крупными компаниями, как Atos, Dell Technologies, HPE, Lenovo, Microsoft Azure и NetApp. Решения NVIDIA используются как в индустрии — в качестве примера можно привести промышленный суперкомпьютер Tesla Automotive, так и в ряде других областей.

В частности, фармакологическая компания Recursion использует наработки NVIDIA в области машинного обучения для поиска новых лекарств, а национальный научно-исследовательский центр энергетики (NERSC) применяет ускорители A100 в суперкомпьютере Perlmutter при разработке новых источников энергии. И в дальнейшем NVIDIA продолжит своё наступление на рынок HPC, благо, она может предложить заказчикам как законченные аппаратные решения, так и облачные сервисы, также использующие новейшие технологии компании.

Постоянный URL: http://servernews.ru/1043002
02.06.2021 [00:24], Владимир Мироненко

Microsoft Azure объявила о доступности инстансов с NVIDIA A100

Microsoft Azure объявила о доступности инстансов ND A100 v4, своих самых мощных виртуальных машин на базе ускорителей NVIDIA A100 для работы с ИИ и высокопроизводительных вычислений (HPC) суперкомпьютерного класса. ND A100 v4 имеет восемь NVIDIA A100 (40 Гбайт), 96 ядер CPU (AMD EPYC), 900 Гбайт RAM, локальное NVMe-хранилище на 6,5 Тбайт и подключение HDR InfiniBand, обеспечивающее пропускную способность 200 Гбит/с на каждый ускоритель, т.е. суммарно 1,6 Тбит/с.

Стоимость аренды базового инстанса Standard_ND96asr_v4 указанной выше конфигурации начинается от $27,2/час. Для наиболее требовательных рабочих нагрузок возможно создание кластеров ND A100 v4, объединяющих с помощью InfiniBand тысячи ускорителей.

Чтобы упростить и ускорить разработку, каталог NVIDIA NGC предлагает готовые к использованию платформы приложений, оптимизированные для GPU, контейнеры, предварительно обученные модели, библиотеки, SDK и Helm-пакеты. Виртуальные машины ND A100 v4 также поддерживаются Azure Machine Learning, сервисом для интерактивной разработки ИИ, распределённого обучения, инференса и автоматизации с помощью ML Ops.

Развёртывание систем машинного обучения на базе ND A100 v4 упрощается с помощью NVIDIA Triton Inference Server, открытого решения, интегрированного с Azure ML и способного максимизировать производительность и использование как графического, так и центрального процессора, и минимизировать эксплуатационные расходы на развёртывание. Кроме того, вскоре появится возможность использования Azure Kubernetes Service для развёртывания и управления контейнерными приложениями на ND A100 v4.

Постоянный URL: http://servernews.ru/1040993
28.05.2021 [00:33], Владимир Мироненко

Perlmutter стал самым мощным ИИ-суперкомпьютером в мире: 6 тыс. NVIDIA A100 и 3,8 Эфлопс

В Национальном вычислительном центре энергетических исследований США (NERSC) Национальной лаборатории им. Лоуренса в Беркли состоялась торжественная церемония, посвящённая официальному запуску суперкомпьютера Perlmutter, также известного как NERSC-9, созданного HPE в партнёрстве с NVIDIA и AMD.

Это самый мощный в мире ИИ-суперкомпьютер, базирующийся на 6159 ускорителях NVIDIA A100 и примерно 1500 процессорах AMD EPYC Milan. Его пиковая производительность в вычислениях смешанной точности составляет 3,8 Эфлопс или почти 60 Пфлопс в FP64-вычислениях.

Perlmutter основан на платформе HPE Cray EX с прямым жидкостным охлаждением и интерконнектом Slingshot. В состав системы входят как GPU-узлы, так и узлы с процессорами. Для хранения данных используется файловая система Lustre объёмом 35 Пбайт скорость обмена данными более 5 Тбайт/с, которая развёрнута на All-Flash СХД HPE ClusterStor E1000 (тоже, к слову, на базе AMD EPYC).

Perlmutter (Phase 1). Фото: NERSC

Perlmutter (Phase 1). Фото: NERSC

Установка Perlmutter разбита на два этапа. На сегодняшней презентации было объявлено о завершении первого (Phase 1) этапа, который начался в ноябре прошлого года. В его рамках было установлено 1,5 тыс. вычислительных узлов, каждый из которых имеет четыре ускорителя NVIDIA A100, один процессор AMD EPYC Milan и 256 Гбайт памяти. На втором этапе (Phase 2) в конце 2021 года будут добавлены 3 тыс. CPU-узлов c двумя AMD EPYC Milan и 512 Гбайт памяти., а также ещё ещё 20 узлов доступа и четыре узла с большим объёмом памяти.

NERSC

NERSC

Также на первом этапе были развёрнуты служебные узлы, включая 20 узлов доступа пользователей, на которых можно подготавливать контейнеры с приложениями для последующего запуска на суперкомпьютере и использовать Kubernetes для оркестровки. Среда разработки будет включать NVDIA HPC SDK в дополнение к наборам компиляторов CCE (Cray Compiling Environment), GCC и LLVM для поддержки различных средств параллельного программирования, таких как MPI, OpenMP, CUDA и OpenACC для C, C ++ и Fortran.

Фото: DESI

Фото: DESI

Сообщается, что для Perlmutter готовится более двух десятков заявок на вычисления в области астрофизики, прогнозирования изменений климата и в других сферах. Одной из задач для новой системы станет создание трёхмерной карты видимой Вселенной на основе данных от DESI (Dark Energy Spectroscopic Instrument). Ещё одно направление, для которого задействуют суперкомпьютер, посвящено материаловедению, изучению атомных взаимодействий, которые могут указать путь к созданию более эффективных батарей и биотоплива.

Постоянный URL: http://servernews.ru/1040628
20.05.2021 [14:18], SN Team

От мала до велика: в Selectel можно арендовать Raspberry Pi 4 и сервер с восемью NVIDIA A100

Одноплатный компьютер можно арендовать по цене VDS — всего за 499 рублей в месяц. А при заказе системы сразу на год стоимость упадёт до 424,15 руб./мес., и это всё равно будет выгоднее покупки самого устройства. В стоимость аренды входит один общий публичный IP-адрес, а также подключение 1 Гбит/с и 5 Тбайт трафика ежемесячно или безлимитное подключение 100 Мбит/с.

Спецификации Raspberry Pi 4 Model B включают четырёхъядерный процессор Broadcom BCM2711 (ARM Cortex-A72) с тактовой частотой 1,5 ГГц и оперативную память LPDDR4 объёмом 4 Гбайт. Для хранения данных предусмотрена карта памяти microSD ёмкостью 64 Гбайт. Основная ОС — Ubuntu 20.04 LTS. Сообщается, что подготовка серверов полностью автоматизирована: машина с установленной ОС поступит в распоряжение пользователя в течение часа после заказа.

Также компания анонсировала новую конфигурацию (GL100-8-A100) выделенного сервера, который имеет сразу 8 ускорителей NVIDIA A100. Система построена на базе двух процессоров Intel Xeon Gold 6240 (18C/36T, 2,6–3,9 ГГц, L3-кеш 24,75 Мбайт), дополненных 384 Гбайт RAM. Для ОС предусмотрено два 480-Гбайт SSD, а для хранения данных — пара быстрых NVMe SSD ёмкостью 3,84 Тбайт каждый. Система идеально подходит для обучения больших ИИ-моделей, HPC-расчётов, анализа большого объёма данных и прочих «тяжёлых» задач.

Система будет доступна заказчику в течение получаса после оплаты. Стоимость аренды составляет всего 24 990 руб./день или 615 560 руб./мес. При заказе на год стоимость аренды снижается до 523 226 руб./мес., что — как и в случае с Raspberry Pi — всё равно выгоднее, чем покупка аналогичной системы, которая стоит от 8 млн руб. В стоимость аренды включены 30 Тбайт трафика на скорости 1 Гбит/с (или безлимитное подключение 100 Мбит/с), один общий публичный IP-адрес, возможность подключения к приватной сети, доступ к IP-KVM.

При заказе новинок на срок от одного месяца доступны опции защиты от DDoS-атак и резервного копирования (Veeam), а также аренда дополнительных блоков IPv4/IPv6-адресов. В случае GPU-сервера также доступны лицензии на различное ПО. Все системы размещаются в ЦОД уровня TIER III. Осуществляется круглосуточная поддержка и оперативная замена неисправных комплектующих.

Постоянный URL: http://servernews.ru/1039965
23.03.2021 [17:32], Сергей Карасёв

В основу самого мощного суперкомпьютера Швеции лягут ускорители NVIDIA

Швеция в скором времени введёт в строй свой самый мощный вычислительный комплекс: системе высокопроизводительных вычислений предстоит решать широкий спектр научных и прикладных задач. Ожидается, что суперкомпьютер войдёт в число первых 50 систем из списка TOP500.

Проект получил название BerzeLiUs — в честь Йёнса Якоба Берцелиуса, шведского химика и минералога. Он открыл ряд элементов, развил электрохимическую теорию, а также предложил термины аллотропия, изомерия, катализ и др.

Вычислительный комплекс BerzeLiUs расположится в Линчёпингском университете. Расчётная производительность — 300 Пфлопс, что в два раза больше по сравнению с нынешним самым мощным суперкомпьютером Швеции.

В основу суперкомпьютера положены 60 узлов NVIDIA DGX A100. Это универсальная система для решения задач, связанных с искусственным интеллектом. В состав DGX A100 входят ускорители NVIDIA A100, а быстродействие каждой такой системы составляет 5 Пфлопс.

Обмен данными осуществляется через сеть NVIDIA Mellanox InfiniBand HDR с пропускной способностью до 200 Гбит/с. В состав комплекса входят четыре сервера хранения данных DataDirect Networks, которые суммарно предоставляют 1,5 Пбайт флеш-памяти.

Использовать BerzeLiUs планируется для реализации проектов в сферах Интернета вещей, беспроводной связи, кибербезопасности и пр.

Постоянный URL: http://servernews.ru/1035568
19.03.2021 [00:59], Игорь Осколков

В Google Cloud появились самые быстрые GPU-инстансы с 16-ю ускорителями NVIDIA A100

Облачный провайдер Google Cloud объявил о доступности семейства инстансов A2, которое было анонсировано ещё летом прошлого года. A2 может включать от 1-го до целых 16-ти ускорителей NVIDIA A100. По словам Google, на текущий момент никакой другой крупный облачный провайдер не может предложить подобную конфигурацию узлов.

Можно выбрать варианты с 1, 2, 4, 8 или 16-ю ускорителями. Самой младшей версии a2-highgpu-1g полагается 12 vCPU, 85 Гбайт RAM и сетевое подключение 24 Гбит/с. Старшей a2-megagpu-16g  — 96 vCPU, 1,36 Тбайт RAM и 100 Гбит/с соответственно. Для всех систем доступно локальное SSD-хранилище ёмкостью до 3 Тбайт. Google не приводит полные характеристики аппаратной платформы, лежащей в основе A2, говоря лишь об использовании Intel Xeon Cascade Lake и том, что все 16 ускорителей объединены шиной NVLink.

Не уточняется и, какая именно версия A100 используется, но, вероятно, это всё же 40-Гбайт модификация, а не более свежая 80-Гбайт. В любом случае решение Google заметно отличается от DGX A100 на базе AMD EPYC Rome и восьми GPU, и от обычных решений HGX A100, в рамках которых предлагаются платы с четырьмя или восемью SXM-ускорителями, объединёнными NVLink-подключением.

Семейство A2 ориентировано на машинное обучение (тренировка и инференс), анализ данных и HPC-нагрузки. Имеется поддержка NVIDIA NGC для быстрого развёртывания ПО. А наиболее требовательным заказчикам Google Cloud может предоставить кластеры для распределённой тренировки, насчитывающие тысячи ускорителей.

На данный момент новые инстансы доступны в Айове, США (us-central1), Нидерландах (Europe-west4) и Сингапуре (asia-southeast1). Стоимость аренды начинается от $3,67/час для a2-highgpu-1g до $55,74/час для a2-megagpu-16g.

Постоянный URL: http://servernews.ru/1035236
16.03.2021 [23:27], Игорь Осколков

Dell открывает серию серверов с AMD EPYC 7003 мощной моделью PowerEdge XE8545

Продолжаем рассказ о продуктах на базе новейших процессоров AMD EPYC 7003, анонс которых состоялся вчера. Вместе с анонсом партнёры компании представили и свои решения на базе этих CPU. Среди них есть как платформы для EPYC 7002, которым для работы с новинками требуется только обновление прошивки, так и новые платформы. К последнем относится и Dell Technologies PowerEdge XE8545, мощный сервер для ИИ и анализа данных.

В серию EX включены не совсем стандартные решения для особых задач. Сейчас в неё входят edge-система PowerEdge XE2420 и сервер XE7100 с высокой плотностью хранения данных. Новый же PowerEdge XE8545 предназначен для ИИ, машинного обучения, анализа данных и других HPC-нагрузок.

Аппаратную основу системы образуют два 64-ядерных процессора AMD EPYC Milan и четыре SXM4-ускорителя NVIDIA A100. Dell отмечает, что это одна из первых платформ, использующих новый вариант HGX-платы (Redstone 2) с 80-Гбайт A100. Для хранения данных используются NVMe-накопители с поддержкой PCIe 4.0.

PowerEdge XE8545 имеет стандартную глубину и высоту 4U, что объясняется использованием системы исключительно воздушного охлаждения, которой нужно справиться с отводом более 2 кВт тепла от двух 280-Вт CPU и четырёх ускорителей c TDP 400-500 Вт. Тем не менее, по мнению Dell, отсутствие СЖО упрощает интеграцию системы в уже имеющуюся инфраструктуру.

Постоянный URL: http://servernews.ru/1035023
Система Orphus