Материалы по тегу: a100

16.03.2021 [23:27], Игорь Осколков

Dell открывает серию серверов с AMD EPYC 7003 мощной моделью PowerEdge XE8545

Продолжаем рассказ о продуктах на базе новейших процессоров AMD EPYC 7003, анонс которых состоялся вчера. Вместе с анонсом партнёры компании представили и свои решения на базе этих CPU. Среди них есть как платформы для EPYC 7002, которым для работы с новинками требуется только обновление прошивки, так и новые платформы. К последнем относится и Dell Technologies PowerEdge XE8545, мощный сервер для ИИ и анализа данных.

В серию EX включены не совсем стандартные решения для особых задач. Сейчас в неё входят edge-система PowerEdge XE2420 и сервер XE7100 с высокой плотностью хранения данных. Новый же PowerEdge XE8545 предназначен для ИИ, машинного обучения, анализа данных и других HPC-нагрузок.

Аппаратную основу системы образуют два 64-ядерных процессора AMD EPYC Milan и четыре SXM4-ускорителя NVIDIA A100. Dell отмечает, что это одна из первых платформ, использующих новый вариант HGX-платы (Redstone 2) с 80-Гбайт A100. Для хранения данных используются NVMe-накопители с поддержкой PCIe 4.0.

PowerEdge XE8545 имеет стандартную глубину и высоту 4U, что объясняется использованием системы исключительно воздушного охлаждения, которой нужно справиться с отводом более 2 кВт тепла от двух 280-Вт CPU и четырёх ускорителей c TDP 400-500 Вт. Тем не менее, по мнению Dell, отсутствие СЖО упрощает интеграцию системы в уже имеющуюся инфраструктуру.

Постоянный URL: http://servernews.ru/1035023
15.12.2020 [01:43], Владимир Мироненко

NEC построит гибридный суперкомпьютер SQUID c Intel Xeon Ice Lake, NVIDIA A100, векторными ускорителями SX-Aurora TSUBASA и доступом в облака

Центр Cybermedia Университета Осаки и NEC Corporation объявили о планах представить новую суперкомпьютерную систему для высокопроизводительных вычислений (HPC) и высокопроизводительного анализа данных (HPDA) от NEC. Она заменит существующую систему, тоже поставленную NEC. Согласно графику, новая система начнёт работать в мае 2021 года. Она войдёт в инфраструктура нового поколения для открытых исследований и инноваций Университета Осаки (ONION).

Новая суперкомпьютерная система SQUID (Supercomputer for Quest for Unsolved Interdisciplinary Datascience) будет состоять из 1520 CPU-узлов на базе Intel Xeon Scalable 3-го поколения (Ice Lake), а также 42 GPU-узлов с восемью NVIDIA A100 и 36 «векторных» узлов, каждый из которых оснащён восемью ускорителями NEC SX-Aurora TSUBASA, обеспечивающими более быстрое и высокоэффективное моделирование погодных, сейсмических, гидравлических и других явлений. Эта гибридная суперкомпьютерная система способна обеспечить теоретическую производительность более 16 Пфлопс.

Для хранения данных будет использоваться решение DDN EXAScaler ёмкостью 20 Пбайт с 1,2-Пбайт хранилищем для высокоскоростной обработки данных. Для доступа также будет использовано ПО Cloudian Object-Storage HyperStore. А NVIDIA Mellanox HDR InfiniBand обеспечиет высокую скорость, низкую задержку и интеллектуальную связь между всеми узлами и СХД.

Новая суперкомпьютерная система позволяет исследователям динамически развёртывать и использовать программный стек по своему выбору. Кроме того, она обеспечит безопасную вычислительную среду, в которой пользователи могут с уверенностью использовать конфиденциальные данные. Например, чувствительные данные в хранилище университетского городка могут быть обработаны и проанализированы вычислительными узлами суперкомпьютера без перемещения данных из хранилища.

Безопасная вычислительная среда также предлагает функцию безопасного разделения, которая динамически отделяет и изолирует сеть для определенной группы пользователей и, таким образом, предоставляет услуги, которые не позволяют другим пользователям видеть данные и вычисления. Эти возможности будут востребованы, в частности, в медицинской сфере.

Наконец, новая суперкомпьютерная система будет интегрирована с облачными сервисами Oracle Cloud Infrastructure и Microsoft Azure. Динамический перенос части рабочих процессов в облако при высокой загруженности суперкомпьютера позволяет быстро реагировать на растущий спрос на вычислительные ресурсы, обеспечивая при этом те же возможности, что и локальная вычислительная среда. Это также обеспечит гибкость за счёт использования более современных вычислительных ресурсов, которые продолжают обновляться в облачных сервисах.

Постоянный URL: http://servernews.ru/1027830
14.12.2020 [16:34], Сергей Карасёв

AMD-суперкомпьютер Hawk получит 192 NVIDIA A100 для ускорения ИИ-вычислений

Штутгартский Центр высокопроизводительных вычислений (HLRS), одна из крупнейших европейских суперкомпьютерных площадок, нарастит мощности комплекса Hawk с целью ускорения задач, связанных с искусственным интеллектом (ИИ).

На текущий момент Hawk является одним из самых мощных суперкомпьютеров в мире. В его основу положены узлы Apollo производства Hewlett Packard Enterprise. Задействованы процессоры AMD EPYC 7742, а также интерконнект Mellanox HDR Infiniband. В ноябрьском рейтинге Top500 система Hawk занимает шестнадцатое место с производительностью приблизительно 19,33 Пфлопс и пиковым быстродействием на уровне 25,16 Пфлопс.

На фоне растущих потребностей в вычислениях, связанных с машинным обучением и искусственным интеллектом, HLRS принял решение модернизировать Hawk путём добавления 192 акселераторов NVIDIA A100 с архитектурой Ampere.

Предполагается, что обновлённая суперкомпьютерная система поможет в решении сложных задач, связанных с распространением коронавирусной инфекции, разработкой транспортных средств будущего и пр.

Постоянный URL: http://servernews.ru/1027790
03.12.2020 [15:31], Сергей Карасёв

GIGABYTE выпустила сервер G492-ZD0 на базе NVIDIA HGX A100 для ИИ и HPC

Компания GIGABYTE Technology официально представила сервер G492-ZD0 на базе платформы NVIDIA HGX A100 8-GPU. Новинка предназначена для формирования систем высокопроизводительных вычислений (HPC), а также комплексов для аналитики больших данных и поддержания работы приложений искусственного интеллекта (ИИ).

Сервер выполнен в формате 4‎U на материнской плате MZ52-G40. Допускается установка двух процессоров AMD EPYC 7002, каждый из которых может содержать до 64 вычислительных ядер (до 128 потоков инструкций).

Для модулей оперативной памяти DDR4-3200/2933 доступны 32 слота: суммарный объём ОЗУ может достигать 8 Тбайт. Доступны отсеки для восьми 2,5-дюймовых накопителей U.2 NVMe/SATA с возможностью «горячей» замены.

Новинка располагает восемью разъёмами SXM4 для GPU NVIDIA A100. Кроме того, есть восемь слотов для низкопрофильных карт расширения PCIe 4.0 x16.

Сервер оснащён двумя сетевыми портами 10GbE и дополнительным портом управления 1GbE. Подсистема питания объединяет четыре блока с сертификацией 80 PLUS Platinum мощностью 3000 Вт.

Постоянный URL: http://servernews.ru/1026945
19.11.2020 [11:56], Владимир Мироненко

SC20: Microsoft Azure анонсировала публичную превью-версию инстансов ND A100 v4

Команда Microsoft Azure анонсировала на конференции SC20 публичную превью-версию семейства виртуальных машин ND A100 v4, из которых можно сформировать суперкомпьютера мирового класса.

Как утверждает Azure, каждое развертывание кластера ND A100 v4 соперничает с крупнейшими в отрасли ИИ-суперкомпьютерами с точки зрения масштабирования и передовых технологий.

Каждая отдельная виртуальная машина имеет:

  • Восемь новейших графических процессоров NVIDIA A100 с тензорным ядром и 40 Гбайт памяти HBM2, предлагающих повышение производительности каждого графического процессора в 1,7–3,2 раза по сравнению с графическими процессорами V100 или до 20 раз за счёт многоуровневых функций, таких, как новые режимы смешанной точности, функция разреженности и NVIDIA Multi-Instance GPU (MIG), для обеспечения значительно более низкой общей стоимости обучения с улучшенным временем на выполнение решения.
  • Интерконнект на уровне виртуальных машин на основе NVLINK 3.0 + NVswitch.
  • Один 200-Гбит канал InfiniBand HDR на каждый графический процессор с полной поддержкой NCCL2 и GPUDirect RDMA с суммарной пропускной способностью 1,6 Тбит/с на виртуальную машину.
  • Внешнюю сеть Azure со скоростью 40 Гбит/с.
  • 6,4 Тбайт локального хранилища NVMe.
  • Опцию объединения тысяч графических процессоров в InfiniBand-фабрику, с возможностью их взаимодействия без необходимости планирования с учетом топологии
  • 96 vCPU AMD Rome с 900 Гбайт оперативной памяти DDR4.
  • Поддержку стандарта PCIe Gen 4 для максимально быстрого соединения между графическим процессором, сетью и центральным процессором — производительность ввода-вывода до двух раз выше, чем у платформ на базе PCIe Gen 3.

Как и другие виртуальные машины с графическим процессором, Azure ND A100 v4 также доступен со службой машинного обучения Azure (AML) для интерактивной разработки ИИ, распределённого обучения, пакетного вывода и автоматизации с помощью ML Ops. Клиенты смогут выбрать развертывание с помощью AML или традиционных масштабируемых наборов виртуальных машин, а вскоре и многих других вариантов развертывания на базе Azure, таких как служба Azure Kubernetes Service. При этом оптимизированная конфигурация систем и серверной сети InfiniBand выполняется автоматически.

Azure предоставляет настроенную виртуальную машину (с предварительно установленными необходимыми драйверами и библиотеками) и среды на основе контейнеров, оптимизированные для семейства ND A100 v4. Примеры готовых наборов параметров и блокноты Jupyter помогают пользователям быстро приступить к работе с несколькими фреймворками, включая PyTorch, TensorFlow, а также с современными моделями обучения, такими как BERT. Отправить запрос на доступ к новым инстансам можно по этой ссылке.

Постоянный URL: http://servernews.ru/1025768
16.11.2020 [17:00], Игорь Осколков

SC20: NVIDIA представила ускоритель A100 с 80 Гбайт HBM2e и настольный «суперкомпьютер» DGX STATION

NVIDIA представила новую версию ускорителя A100 с увеличенным вдвое объёмом HBM2e-памяти: 80 Гбайт вместо 40 Гбайт у исходной A100, представленной полгода назад. Вместе с ростом объёма выросла и пропускная способность — с 1,555 Тбайт/с до 2 Тбайт/с.

В остальном характеристики обоих ускорителей совпадают, даже уровень энергопотребления сохранился на уровне 400 Вт. Тем не менее, объём и скорость работы быстрой набортной памяти влияет на производительность ряда приложений, так что им такой апгрейд только на пользу. К тому же MIG-инстансы теперь могут иметь объём до 10 Гбайт. PCIe-варианта ускорителя с удвоенной памятью нет — речь идёт только об SXM3-версии, которая используется в собственных комплексах NVIDIA DGX и HGX-платформах для партнёров.

NVIDIA A100 80 Гбайт

NVIDIA A100 80 Гбайт

Последним ориентировочно в первом квартале следующего года будут предоставлены наборы для добавления новых A100 в существующие решения, включая варианты плат на 4 и 8 ускорителей. У самой NVIDIA обновлению подверглись, соответственно, DGX A100 POD и SuperPOD for Enterprise. Недавно анонсированные суперкомпьютеры Cambridge-1 и HiPerGator на базе SuperPOD одними из первых получат новые ускорители с 80 Гбайт памяти. Ожидается, что HGX-решения на базе новой A100 будут доступны от партнёров компании — Atos, Dell Technologies, Fujitsu, GIGABYTE, Hewlett Packard Enterprise, Inspur, Lenovo, Quanta и Supermicro — в первой половине 2021 года.

Но, пожалуй, самый интересный анонс касается новой рабочей станции NVIDIA DGX STATION A100, которую как раз и можно назвать настольным «суперкомпьютером». В ней используются четыре SXM3-ускорителя A100 с не требующей обслуживания жидкостной системой охлаждения и полноценным NVLink-подключением. Будут доступны две версии, со 160 или 320 Гбайт памяти с 40- и 80-Гбайт A100 соответственно. Базируется система на 64-ядерном процессоре AMD EPYC, который можно дополнить 512 Гбайт RAM.

Для ОС доступен 1,92-Тбайт NVMe M.2 SSD, а для хранения данных — до 7,68 Тбайт NVMe U.2 SSD. Сетевое подключение представлено двумя 10GbE-портами и выделенным портом управления. Видеовыходов четыре, все mini Display Port. DGX STATION A100 отлично подходит для малых рабочих групп и предприятий. В том числе благодаря тому, что функция MIG позволяет эффективно разделить ресурсы станции между почти тремя десятками пользователей. В продаже она появится у партнёров компании в феврале следующего года.

Вероятно, все выпускаемые сейчас A100 c увеличенным объёмом памяти идут на более важные проекты. Новинкам предстоит конкурировать с первым ускорителем на базе новой архитектуры CDNA — AMD Instinct MI100.

Постоянный URL: http://servernews.ru/1025432
03.11.2020 [14:01], Владимир Мироненко

AWS предлагает облачные кластеры с 4 тыс. NVIDIA A100

AWS представила новое поколение инстансов EC2 с ускорителями NVIDIA A100, получившее название AWS P4d. Инстансы AWS P4d поддерживаются восемью процессорами A100 с архитектурой Ampere, подключёнными через интерфейс NVLink, которые обеспечат 2,5 петафлопс производительности с плавающей запятой и 320 Гбайт памяти GPU с высокой пропускной способностью на одной машине.

В дополнение к этому новые инстансы P4d также будут иметь 96 vCPU на базе Intel Xeon Scalable поколения Cascade Lake, в общей сложности 1,1 Тбайт системной памяти и NVMe-хранилище ёмкостью 8 Тбайт.

Согласно AWS, новые инстансы первыми сетевоего подключение 400 Гбит/с с использованием адаптера Elastic Fabric (EFA) и поддержкой технологии NVIDIA GPUDirect RDMA, которая позволит разгрузить центральные процессоры серверов виртуализации. Общая пропускная способность сети в 16 раз больше, чем у инстансов P3 последнего поколения с графическими процессорами NVIDIA V100.

Amazon утверждает, что новые инстансы P4d обеспечивают снижение затрат на машинное обучение до 60 % и повышение производительности глубокого обучения более чем в 2,5 раза. Новые инстансы Amazon P4d позволят обучать более крупные и сложные модели, которые сегодня становятся все более и более распространёнными.

Кроме того, Amazon также предоставляет возможность создавать экземпляры P4d с EC2 UltraClusters. EC2 UltraClusters, адаптированные для случаев использования, требующих максимальной вычислительной мощности, могут масштабироваться до 4000 единиц GPU A100, что вдвое больше, чем у любого другого поставщика облачных услуг.

Что касается цен, AWS пока предлагает только одну конфигурацию для инстансов P4d. Конфигурация p4d.24xlarge с 8 GPU NVIDIA A100, 96 vCPU, 400Gb-подключением, NVMe SSD на 8 ТБайт, пропускной способностью EBS-томов 19 Гбит/с и коммутаторов NVSwitch в пределах 600 Гбит/с обойдётся в $32,77 в час. Если вы зарезервируете экземпляр на один или три года, то почасовые затраты снизятся до $19,22 и $11,57 соответственно.

Постоянный URL: http://servernews.ru/1024457
05.10.2020 [19:34], Юрий Поздеев

NVIDIA DGX SuperPOD for Enterprise: суперкомпьютер «под ключ»

NVIDIA анонсировала инфраструктуру искусственного интеллекта «под ключ» NVIDIA DGX SuperPOD для корпоративных заказчиков. Решение представляет собой кластер от 20 до 140 узлов NVIDIA DGX A100, соединенных между собой NVIDIA Mellanox HDR InfiniBand. Производительность решения впечатляет — от 100 до 700 Пфлопс.

Новое решение от NVIDIA интересно прежде всего быстротой развертывания и простотой установки: не нужно проектировать систему и вспомогательную инфраструктуру, система сразу готова к использованию. NVIDIA обещает сроки поставок от нескольких недель, что очень быстро по меркам подобных решений.

Решения на базе NVIDIA DGX очень популярны и до конца 2020 года будут поставлены в следующие проекты:

  • NAVER: ведущая поисковая система в Корее, вместе с японской LINE создала бренд технологий ИИ NAVER CLOVA. В систему войдут 140 узлов DGX A100, которые будут использоваться для исследования и разработки моделей естественного разговорного языка для голосовых служб;
  • Университет Линчепинга в Швеции: проект BerzeLiUs, который будет состоять из 60 DGX A100. BerzeLiUs планируется использовать для исследований ИИ, в рамках сотрудничества университета и промышленности, которые финансируются Фондом Кнута и Алисы Валленберг;
  • C-DAC: Центр развития передовых вычислений при Министерстве электроники и информационных технологий Индии, в проекте которого будет использоваться кластер из 42 NVIDIA DGX A100. Система поможет решать общенациональные проблемы в области здравоохранения, образования, энергетики, кибербезопасности, космоса, автомобилестроения и сельского хозяйства;
  • Cambridge-1: 80-узловой DGX SuperPOD с производительностью 400 Пфлопс, который будет развернут в Кембридже. Система будет использоваться для совместных исследований в области ИИ, медицине, промышленности и стартапах.

Самый мощный на текущий момент кластер из 280 NVIDIA DGX A100 носит имя NVIDIA Selene и уже отметился в рейтинге TOP500, получив высшие оценки еще в одном рейтинге MLPerf.

Постоянный URL: http://servernews.ru/1022231
02.10.2020 [20:25], Алексей Степин

NVIDIA Virtual Compute Server упростит использование vGPU для A100

В мае этого года NVIDIA представила миру новую архитектуру Ampere и первенца на её основе, чип A100. Одной из возможностей новинки является улучшенная виртуализация — один ускоритель можно разбить несколько разделов, что может быть полезно в массе сценариев. Можно наоборот, объединить несколько GPU в рамках одной ВМ. Свежий релиз NVIDIA Virtual Compute Server (vCS) упрощает работу с этими функциями.

Виртуализация — явление не новое, но полноценные виртуальные рабочие места с поддержкой различных ускорителей стали появляться сравнительно недавно. Задач и сценариев, где можно использовать виртуальный графический процессор в качестве вычислительного ресурса, немало — это и автоматизированное проектирование (CAD/CAM), и обработка «тяжёлого» фото- и видеоконтента, и обработка массивов медицинских данных, и бизнес-аналитика, и многое другое. Сложность и ресурсоёмкость задач постоянно растёт, а особенно востребованной технология vGPU становится сейчас, когда день ото дня увеличивается количество удалённых рабочих мест.

NVIDIA A100, исполнение NVLink

NVIDIA A100, исполнение NVLink

Такие места либо не всегда возможно снабдить ускорителями класса Tesla, либо мощности, развиваемой одной-двумя платами, может оказаться недостаточно, поэтому NVIDIA продолжает активно продвигать решение по виртуализации ГП под названием Virtual Compute Server (vCS). Такой подход позволяет при необходимости легко наращивать мощность вычислительного пула, обеспечивая при этом удобные средства управления и контроля.

Последняя архитектура NVIDIA под кодовым названием Ampere особенно хорошо проявляет себя в задачах машинного обучения и аналитики больших объёмов данных. Причина этому — наличие в составе новых графических процессоров блоков целочисленных вычислений (INT32) и блоков тензорных вычислений третьего поколения. Теперь вся эта мощь может использоваться и в рамках vCS.

Использование vCS не несёт серьёзных накладных расходов

Использование NVIDIA vCS не несёт серьёзных накладных расходов

Отныне ЦОД, использующие стандартные гипервизорные платформы вроде VMware vSphere или KVM, могут использовать все преимущества ускорителей A100, причём сентябрьское обновление ПО NVIDIA получило ряд полезных нововведений. Среди них — поддержка множественных инстансов: каждый ускоритель теперь может быть разделен на изолированные разделы (Multi-Instance GPU, MIG), запускающие разные задачи разных пользователей. Таких разделов может быть до 7, и каждый будет работать в собственной виртуальной машине.

Появилась гетерогенность: вышеупомянутые инстансы могут иметь разную «величину». Также реализована поддержка GPUDirect RDMA, прямого доступа сетевых устройств к памяти GPU в обход CPU и системной памяти, что позволит разгрузить центральные процессоры серверов виртуализации. Сертифицированные серверы такого класса, оснащаемые новейшими ускорителями A100, уже доступны от партнёров NVIDIA. А на конференции GPU Technology Conference, которая стартует 5 октября, NVIDIA собирается рассказать о технологии Virtual Compute Server более подробно.

Первая версия продукта NVIDIA появилась ещё год назад под именем vComputeServer, однако его впоследствии пришлось поменять, так как оказалось, что торговая марка «vCompute» давно принадлежит компании Virtual Compute. Последняя две недели назад подала иск к NVIDIA в связи с тем, что такая схожесть имён мешает бизнесу компании — в Google ссылки на её сервисы теперь даже не попадают на первую страницу поисковой выдачи. Virtual Compute просит суд запретить NVIDIA использовать любые похожие имена, уничтожить все материалы с их упоминанием, а также компенсировать ущерб.

Постоянный URL: http://servernews.ru/1022080
20.08.2020 [15:56], Владимир Мироненко

ИИ-суперкомпьютер в аренду: в облаке Microsoft Azure появились инстансы ND A100 v4 с NVIDIA Ampere, AMD EPYC и InfiniBand HDR

Облачная платформа Microsoft Azure продолжает внедрять технологии HPC и ИИ. Компания Microsoft анонсировала новую серию виртуальных машин ND A100 v4. Это самые мощные масштабируемые инстансы для обработки данных с использованием искусственного интеллекта, которые объединяют от восьми до тысяч ускорителей NVIDIA на сотнях виртуальных машин.

Старший администратор проекта Ян Финдер (Ian Finder) сообщил в блоге компании, что серия ND A100 v4 начинается с одной виртуальной машины (ВМ) и восьми графических процессоров NVIDIA Ampere A100 с тензорными ядрами. Кластеры на базе ND A100 v4 могут масштабироваться до тысяч графических процессоров с пропускной способностью 1,6 Тбит/с на каждую виртуальную машину.

Каждый ускоритель снабжен собственным выделенным подключением NVIDIA Mellanox HDR InfiniBand 200 Гбит/с. Десятки, сотни или даже тысячи графических процессоров могут работать вместе как часть кластера с InfiniBand-фабрикой. Любая  ИИ-задача, будь то обучение модели с нуля, дообучение с использованием ваших собственных данных или тонкий тюнинг для конкретной нагрузки, будет достигнута намного быстрее с выделенным подключением GPU↔GPU, которое в 16 раз быстрее любого другого решения от других провайдеров публичного облака.

Для серии виртуальных машин ND A100 v4 используется новая платформа AMD EPYC Rome с поддержкой стандарта PCIe Gen 4. Как утверждает Финдер, PCIe 4.0 и шина NVIDIA NVLink третьего поколения позволили более чем вдвое увеличить скорость перемещения данных в системе по сравнению с предыдущим поколением виртуальных машин. Клиенты, которые будут использовать новые возможности A100, такие как тензорные ядра и Multi-instance GPU (MIG), смогут добиться 20-кратного увеличения производительности.

Серия виртуальных машин ND A100 v4 в настоящее время находится на стадии предварительного доступа, после чего появится в портфолио Azure в качестве стандартного предложения. Ранее ускорители A100 появились в Google Cloud, а AWS обещает добавить их в своё облако в скором времени.

Постоянный URL: http://servernews.ru/1018712
Система Orphus