Материалы по тегу: nvidia

19.11.2020 [11:56], Владимир Мироненко

SC20: Microsoft Azure анонсировала публичную превью-версию инстансов ND A100 v4

Команда Microsoft Azure анонсировала на конференции SC20 публичную превью-версию семейства виртуальных машин ND A100 v4, из которых можно сформировать суперкомпьютера мирового класса.

Как утверждает Azure, каждое развертывание кластера ND A100 v4 соперничает с крупнейшими в отрасли ИИ-суперкомпьютерами с точки зрения масштабирования и передовых технологий.

Каждая отдельная виртуальная машина имеет:

  • Восемь новейших графических процессоров NVIDIA A100 с тензорным ядром и 40 Гбайт памяти HBM2, предлагающих повышение производительности каждого графического процессора в 1,7–3,2 раза по сравнению с графическими процессорами V100 или до 20 раз за счёт многоуровневых функций, таких, как новые режимы смешанной точности, функция разреженности и NVIDIA Multi-Instance GPU (MIG), для обеспечения значительно более низкой общей стоимости обучения с улучшенным временем на выполнение решения.
  • Интерконнект на уровне виртуальных машин на основе NVLINK 3.0 + NVswitch.
  • Один 200-Гбит канал InfiniBand HDR на каждый графический процессор с полной поддержкой NCCL2 и GPUDirect RDMA с суммарной пропускной способностью 1,6 Тбит/с на виртуальную машину.
  • Внешнюю сеть Azure со скоростью 40 Гбит/с.
  • 6,4 Тбайт локального хранилища NVMe.
  • Опцию объединения тысяч графических процессоров в InfiniBand-фабрику, с возможностью их взаимодействия без необходимости планирования с учетом топологии
  • 96 vCPU AMD Rome с 900 Гбайт оперативной памяти DDR4.
  • Поддержку стандарта PCIe Gen 4 для максимально быстрого соединения между графическим процессором, сетью и центральным процессором — производительность ввода-вывода до двух раз выше, чем у платформ на базе PCIe Gen 3.

Как и другие виртуальные машины с графическим процессором, Azure ND A100 v4 также доступен со службой машинного обучения Azure (AML) для интерактивной разработки ИИ, распределённого обучения, пакетного вывода и автоматизации с помощью ML Ops. Клиенты смогут выбрать развертывание с помощью AML или традиционных масштабируемых наборов виртуальных машин, а вскоре и многих других вариантов развертывания на базе Azure, таких как служба Azure Kubernetes Service. При этом оптимизированная конфигурация систем и серверной сети InfiniBand выполняется автоматически.

Azure предоставляет настроенную виртуальную машину (с предварительно установленными необходимыми драйверами и библиотеками) и среды на основе контейнеров, оптимизированные для семейства ND A100 v4. Примеры готовых наборов параметров и блокноты Jupyter помогают пользователям быстро приступить к работе с несколькими фреймворками, включая PyTorch, TensorFlow, а также с современными моделями обучения, такими как BERT. Отправить запрос на доступ к новым инстансам можно по этой ссылке.

Постоянный URL: http://servernews.ru/1025768
18.11.2020 [16:02], Владимир Мироненко

NVIDIA отметила 26-кратный рост производительности HPC-платформ на базе Arm за полтора года

За последние 18 месяцев было отмечено значительное, 25,5-кратное повышение производительности платформ на базе Arm в высокопроизводительных вычислениях благодаря совместным усилиям экосистем Arm и NVIDIA, отметила компания NVIDIA.

По её оценкам, ядро Arm Neoverse N1 обеспечило системам на кристалле, таким как Altra от Ampere Computing, 2,3-кратное улучшение по сравнению с прошлогодними проектами. А графические процессоры NVIDIA A100 с тензорными ядрами продемонстрировали самый большой прирост производительности в истории за одно поколение.

Новейшие платформы перешли на большее количество более быстрых ядер, линий ввода/вывода и памяти. А разработчики приложений внесли в своё программное возможность множества новых оптимизаций. Как уже ранее сообщалось, NVIDIA в партнёрстве с Ampere Computing расширила свою серверную платформу Mt. Jade для облачных игр.

В результате референс-дизайн NVIDIA для высокопроизводительных вычислений на базе Arm с двумя SoC Ampere Altra и двумя графическими процессорами A100 показал в 25,5 раз большую производительность, чем серверы с двумя SoC, которые исследователи использовали в июне 2019 года. А её рефернс-платформа на базе архитектуры Arm и GPU-ускорителей в отдельности показала прирост производительности в 2,5 раза за 12 месяцев.

Результаты касаются приложений, в том числе GROMACS, LAMMPS, MILC, NAMD и Quantum Espresso, имеющих ключевое значение для таких видов деятельности, как разработки лекарств, что является главным приоритетом во время пандемии. Эти и многие другие приложения, адаптированные к запуску на Arm-системах, доступны в готовых к быстрому развёртыванию NGC-контейнерах NVIDIA. Компании и исследователи, работающие в таких областях, как молекулярная динамика и квантовая химия, могут использовать эти приложения не только в фундаментальной науке, но и в здравоохранении.

Еще одним признаком расширения экосистемы стало мероприятие недавно сформированного сообщества Arm HPC User Group (A-HUG), в котором приняли участие такие компании, как AWS, Hewlett Packard Enterprise, исследовательские институты Jülich Supercomputing Centre (JSC, Германия) и RIKEN (Япония), а также Ок-Риджская национальная лаборатория и Национальные лаборатории Сандия (США).

Постоянный URL: http://servernews.ru/1025690
18.11.2020 [12:03], Сергей Карасёв

HGX-системы GIGABYTE с новыми NVIDIA A100 получат воздушное и жидкостное охлаждение

Компания GIGABYTE Technology сообщила о планах по выпуску серверов, оснащённых новейшими ускорителями NVIDIA A100, располагающими 80 Гбайт памяти HBM2e. Эти акселераторы были официально представлены в рамках конференции SC20 — подробно о них можно узнать в нашем материале.

Сообщается, что GIGABYTE возьмёт на вооружение платформу NVIDIA HGX A100, которая объединяет в себе несколько графических ускорителей NVIDIA A100, соединённых высокоскоростным интерфейсом NVLink.

В ассортименте GIGABYTE появятся серверы, использующие акселераторы NVIDIA A100 с 40 и 80 Гбайт памяти. Эти системы будут использоваться в сферах высокопроизводительных вычислений, глубокого обучения, искусственного интеллекта и пр.

В частности, для платформы 4-GPU компания GIGABYTE создаст сервер G492-ZD0 с воздушным охлаждением, а также систему G492-ZL0 с жидкостным охлаждением. Кроме того, будут доступны 2U-версии G262-ZR0 и G262-ZL0, наделённые воздушным и жидкостным охлаждением соответственно.

Более подробную информацию о новинках разработчик раскроет позднее. Серверы станут доступны в первой четверти следующего года. 

Постоянный URL: http://servernews.ru/1025642
16.11.2020 [17:00], Илья Коваль

SC20: NVIDIA анонсировала InfiniBand NDR: 400 Гбит/c адаптерам уже нужен PCIe 5.0

Вместе с обновлёнными ускорителями A100 и продуктами на его основе NVIDIA анонсировала и решения на базе стандарта InfiniBand NDR который, как и положено, удваивает пропускную способность одной линии до 100 Гбит/с. Новые адаптеры и DPU NVIDIA получат порты 400 Гбит/c, а коммутаторы — 64 порта 400 Гбит/с или 128 портов 200 Гбит/c, способных обработать 66,5 млрд пакетов в секунду. Модульные коммутаторы позволят получить до 2048 портов с суммарной пропускной способностью 1,64 Пбит/с.

Кроме того, повышена масштабируемость сети, которая способна объединить более миллиона GPU всего с тремя «прыжками» (hops) между любыми из них. А с ростом числа узлов снижаются и стоимость владения, и энергопотребление, что будет важно для суперкомпьютеров экзафплосного класса. Компания отдельно отмечает, что для InfiniBand NDR удалось сохранить возможность использования пассивных медных кабелей на коротких расстояниях (до 1,5 м).

Помимо увеличения пропускной способности, вчетверо повышена производительность MPI, за что отвечают отдельные аппаратные движки. А ИИ-приложения могут получить дополнительное ускорение благодаря технологии Mellanox SHARP (Scalable Hierarchical Aggregation and Reduction Protocol). DPU же за счёт наличия ядер общего назначения могут взять на себя часть обработки данных и попутно отвечать за безопасность, изоляцию, мониторинг и управление инфраструктурой. Вообще NVIDIA говорит о распределённом CPU, «живущем» в сети, который эффективно дополняет ускорители компании.

Однако у InfiniBand NDR, как и у конкурирующего стандарта 400GbE, есть и обратная сторона медали. Для новых адаптеров требуются или 16 линий PCIe 5.0, или 32 линии PCIe 4.0. PCIe 5.0 будет доступен ещё нескоро, а линии PCIe 4.0 в современных системах жаждут не только адаптеры, но и накопители, и собственно ускорители. Использование PCIe-свитчей может снизить эффективность обмена данными, так что, вероятно, интереснее всего было бы увидеть DPU с root-комплексами, да покрупнее. Первые продукты на базе нового стандарта должны появиться в втором квартале 2021 года.

Постоянный URL: http://servernews.ru/1025433
16.11.2020 [17:00], Игорь Осколков

SC20: NVIDIA представила ускоритель A100 с 80 Гбайт HBM2e и настольный «суперкомпьютер» DGX STATION

NVIDIA представила новую версию ускорителя A100 с увеличенным вдвое объёмом HBM2e-памяти: 80 Гбайт вместо 40 Гбайт у исходной A100, представленной полгода назад. Вместе с ростом объёма выросла и пропускная способность — с 1,555 Тбайт/с до 2 Тбайт/с.

В остальном характеристики обоих ускорителей совпадают, даже уровень энергопотребления сохранился на уровне 400 Вт. Тем не менее, объём и скорость работы быстрой набортной памяти влияет на производительность ряда приложений, так что им такой апгрейд только на пользу. К тому же MIG-инстансы теперь могут иметь объём до 10 Гбайт. PCIe-варианта ускорителя с удвоенной памятью нет — речь идёт только об SXM3-версии, которая используется в собственных комплексах NVIDIA DGX и HGX-платформах для партнёров.

NVIDIA A100 80 Гбайт

NVIDIA A100 80 Гбайт

Последним ориентировочно в первом квартале следующего года будут предоставлены наборы для добавления новых A100 в существующие решения, включая варианты плат на 4 и 8 ускорителей. У самой NVIDIA обновлению подверглись, соответственно, DGX A100 POD и SuperPOD for Enterprise. Недавно анонсированные суперкомпьютеры Cambridge-1 и HiPerGator на базе SuperPOD одними из первых получат новые ускорители с 80 Гбайт памяти. Ожидается, что HGX-решения на базе новой A100 будут доступны от партнёров компании — Atos, Dell Technologies, Fujitsu, GIGABYTE, Hewlett Packard Enterprise, Inspur, Lenovo, Quanta и Supermicro — в первой половине 2021 года.

Но, пожалуй, самый интересный анонс касается новой рабочей станции NVIDIA DGX STATION A100, которую как раз и можно назвать настольным «суперкомпьютером». В ней используются четыре SXM3-ускорителя A100 с не требующей обслуживания жидкостной системой охлаждения и полноценным NVLink-подключением. Будут доступны две версии, со 160 или 320 Гбайт памяти с 40- и 80-Гбайт A100 соответственно. Базируется система на 64-ядерном процессоре AMD EPYC, который можно дополнить 512 Гбайт RAM.

Для ОС доступен 1,92-Тбайт NVMe M.2 SSD, а для хранения данных — до 7,68 Тбайт NVMe U.2 SSD. Сетевое подключение представлено двумя 10GbE-портами и выделенным портом управления. Видеовыходов четыре, все mini Display Port. DGX STATION A100 отлично подходит для малых рабочих групп и предприятий. В том числе благодаря тому, что функция MIG позволяет эффективно разделить ресурсы станции между почти тремя десятками пользователей. В продаже она появится у партнёров компании в феврале следующего года.

Вероятно, все выпускаемые сейчас A100 c увеличенным объёмом памяти идут на более важные проекты. Новинкам предстоит конкурировать с первым ускорителем на базе новой архитектуры CDNA — AMD Instinct MI100.

Постоянный URL: http://servernews.ru/1025432
11.11.2020 [13:10], SN Team

Сравнительное тестирование GPU-серверов с видеокартами NVIDIA RTX3000 в задачах AI/ML

Партнёрский материал

В начале сентября 2020 г. компания NVIDIA впервые представила графические карты семейства GeForce RTX 3000 на базе архитектуры RTX второго поколения — Ampere. NVIDIA нарушила свою традицию, когда новые поколения карт продавались дороже своих предшественников, а это значит, что стоимость тренировки модели оставалась примерно на одном уровне.

В этот раз NVIDIA установила стоимость новых и более популярных карт на уровне стоимости карт предыдущего поколения в момент начала их продаж. Для разработчиков ИИ-приложений это событие стало действительно важным — по сути, карты RTX 3000 открывают доступ к производительности, сравнимой с Titan RTX, но с гораздо более приятным ценником. Теперь у разработчиков data science появилась возможность тренировать модели быстрее без увеличения затрат.

Флагманские карты новой серии GeForce RTX 3090 получили 10 496 ядер NVIDIA CUDA с тактовой частотой 1,44 ГГц (ускорение до 1,71 ГГц), 328 тензорных ядер третьего поколения и 24 Гбайт 384-битной графической памяти GDDR6X. Еще более доступная по цене GeForce RTX 3080 обладает 8 704 ядрами CUDA с теми же тактовыми частотами, 272 тензорными ядрами и 10 Гбайт 320-битной памяти GDDR6X. Несмотря на дефицит новых видеокарт (NVIDIA даже была вынуждена приносить извинения рынку за образовавшуюся нехватку карт на старте продаж), уже в начале октября GPU-серверы появились в линейке продуктов у хостинг-провайдеров.

Нидерландский провайдер HOSTKEY одним из первых в Европе протестировал и представил GPU-серверы на базе новых карт GIGABYTE RTX3090/3080 TURBO. С 26 октября конфигурации на базе RTX 3090/Xeon E-2288G и RTX 3080/AMD Ryzen 9 3900X стали доступны всем клиентам HOSTKEY в дата-центрах в Нидерландах и Москве.

NVIDIA RTX 3000: золотая середина?

Карты RTX3090/3080 позиционируются производителем как более производительное решение на замену карт серии RTX 2000 с предыдущей архитектурой Turing. И, конечно, серверы с новыми картами значительно производительнее, чем доступные «народные» GPU-серверы на базе видеокарт GTX1080 (Ti), которые тоже пригодны для работы с нейросетями и прочими задачами машинного обучения (хотя и с оговорками), но при этом доступны по совсем уж «демократичным» ценам.

«Над» серией NVIDIA RTX 3000 располагаются все мощные решения на базе карт класса A100/A40 (Ampere) с тензорными ядрами третьего поколения числом до 432, Titan RTX/T4 (Turing) с тензорными ядрами второго поколения в количестве до 576, и V100 (Volta) с 640 тензорными ядрами первого поколения. Ценники на эти мощные карты, равно как и на аренду GPU-серверов с ними, значительно превышают предложения с RTX 3000, поэтому особенно интересно оценить на практике разрыв в производительности в задачах AI/ML.

Практические исследования

Face Reenactment

Одной из рабочих задач для оперативного тестирования GPU-серверов на основе новых карт RTX 3090 и RTX 3080 был выбран процесс Face Reenactment для нейросети U-Net+ResNet с пространственно-адаптивной нормализацией SPADE и patch-дискриминатором. В качестве фреймворка использовался Facebook PyTorch версии 1.6 со встроенным автоматическим режимом Automated mixed precision (AMP), а также режимом флага torch.backend.cudnn.benchmark = True.

Для сравнения этот же тест был запущен на GPU-сервере с картой GeForce GTX 1080 Ti, но уже без AMP, который только замедлил бы процесс, а также на машине с картой Titan RTX. Для чистоты эксперимента следует упомянуть, что в этом тестировании с картой Titan RTX использовалась система на процессоре Intel Core i9-10920X, в то время как остальные GPU-серверы со всеми остальными картами работали на Xeon E-2288G.

Безусловно, сравнение при классификации важно производить на одинаковых процессорах, поскольку именно они зачастую являются «бутылочным горлышком», ограничивающим производительность системы. Так что доля скептицизма в отношении погрешности результатов тестирования GPU в данном случае вполне уместна. Мы получили следующие результаты:

Минимальная разница между результатами RTX 3090 и Titan RTX выглядит особенно впечатляюще, если вспомнить об огромном ценовом разрыве между этими решениями. В следующем тестировании RTX 3090 заслуживает, как минимум, полноценного глубокого сравнения с GPU-сервером на базе одной и двух карт RTX 2080. Отставание RTX 3080 от RTX 3090 вполне объяснимо значительной разницей в объеме памяти — 10 Гбайт против 24 ГБ, на соответственное двух- и трехкратное отставание GTX 1080 Ti также наложила свой отпечаток разница в архитектурах.

Если же посмотреть на эти результаты с практической точки зрения, то есть в плане оценки финансовых расходов на обучение модели в случае аренды GPU-сервера, то чаша весов окончательно склоняется в пользу выбора системы с RTX 3090 — именно эта карта обеспечит наилучший использование бюджета как при недельном, так и при месячном тарифных планах.

Обучение GAN

Во второй тестовой задаче, которая заключалась в тренировке генеративно-состязательной нейронной сети (Generative Adversarial Network, GAN) с пакетом PyTorch, было интересно не только сравнить производительность карт различных поколений, но также отследить влияние состояния флага torch.backends.cudnn.benchmark на финальные результаты. При обучении GAN-архитектуры включение флага в положение True дает прирост производительности, но при этом может пострадать воспроизводимость результатов (Reproducibility).

Полученные результаты еще раз доказывают, что карта RTX 3090 с ее 24 Гбайт памяти GDDR6X представляет собой лучший выбор для решения тяжелых задач по обработке изображений. Как по производительности (выигрыш на 65% по сравнению с RTX 3080), так и по затратам на тренинг модели при аренде GPU-сервера в пересчёте на стоимость тренировки.

RTX 3080 значительно обошла по производительности GTX 1080 Ti, причём с любой установкой флага и несмотря на примерный паритет объема памяти. Однако следует помнить, что при обучении GAN-архитектуры включение флага torch.backends.cudnn.benchmark=True дает прирост производительности, но при этом может пострадать воспроизводимость результатов. причем,

Так что аренда более доступного GPU-сервера с картами GTX 1080 Ti при некоторых условиях может быть вполне разумным выбором — или, как минимум, сравнима по бюджету на тренинги моделей с RTX 3080. К сожалению, на прогон этой сетки через Titan RTX времени уже не оставалось, но с большой вероятностью картина в этом случае осталась бы аналогичной.

Обучение и инференс в vision-задачах

В следующей тестовой задаче по тренингу сетей в vision-задачах производительность видеокарт RTX 3090 и RTX 3080 сравнивалась с возможностями мощнейшего (и все еще очень дорогого) «ветерана» Tesla V100 с 16 Гбайт памяти HBM2.  Было протестировано пять классификационных моделей для обнаружения объектов со следующими тренинговыми установками: model forward + mean (no loss) + backward.

Тестовые задания запускались с применением последней версии фреймворка NVIDIA PyTorch (20.09-py3 от 24 октября). К сожалению, эта версия не собрана под архитектуру Ampere, поэтому для полноценной поддержки видеокарт RTX 3000 пришлось использовать PyTorch версии nightly build, а именно 1.8.0.dev20201017+cu110. У серии RTX 3000 также есть некоторые проблемы с torch.jit, но вопрос полностью снимается при сборке PyTorch под конкретную карту. Во всех тестах PyTorch использовался с автоматическим скриптом Mixed Precision, с включенным по умолчанию флагом torch.backend.cudnn.benchmark = True. 

Стоит упомянуть некоторые нюансы этого сравнения. В частности, была задействована не самая быстрая V100, которая работала внутри виртуальной машины. Из-за этого могли возникнуть некоторые потери, которые, вполне возможно, можно было бы оптимизировать при лучшей настройке. Помимо этого, в процессе тестирования не была задействована вся доступная VRAM, что позволило бы придать расчетам дополнительное ускорение.

Classification Training

Задача обучения сложных моделей нейросетей является профильным заданием для GPU-серверов на картах NVIDIA, позволяя порой на порядки сократить время тренировки алгоритмов глубокого обучения.

В условиях запуска задачи для получения результатов бенчмарка пересылка обнаружения объектов производилась без NMS, а пересылка для обучения не включала сопоставления целей. Иными словами, на практике скорость обучения с большой вероятностью замедлится на 10-20%, а скорость вывода снизится примерно на 20-30%.

Classification Inference

В данном случае инференс — это процесс получения предсказаний посредством прогона изображений через заранее обученную нейронную сеть, который вполне подходит для развертывания на удаленном GPU-сервере.

В целом можно говорить о том, что в заданиях тренировки и инференса сетей в Vision-задачах карта RTX 3090 медленнее Tesla V100 в среднем всего на 15-20%, и это очень впечатляюще — особенно с учетом разницы в цене.

Показателен и тот факт, что отставание RTX 3080 от RTX 3090 относительно невелико — по крайней мере, значительно меньше, чем при выполнении других задач. На практике это означает, что даже со сравнительно небольшим бюджетом, выделенным на аренду GPU-сервера на базе RTX 3080, можно добиться достаточно высокой производительности лишь с небольшим увеличением затрат времени на обработку данных.

Detection Training

Тестирование RetinNet c ResNet50FPN для обнаружения объектов производилось с указанными выше параметрами PyTorch (20.09-py3 от 24 октября), с флагом torch.backend.cudnn.benchmark=True и с тренинговыми установками model forward + mean (no loss) + backward.

Detection Inference

Здесь отставание карт серии RTX30 уже минимально, что говорит о несомненных преимуществах новой архитектуры Ampere для решения подобных задач. Карта RTX 3090 показала себя просто великолепно.

Сравнительно небольшое отставание бюджетной карты говорит о том, что благодаря отличному соотношению цена/возможности RTX 3080 может стать желанным выбором для решения задач прототипирования с экономичным бюджетом. По завершению создания прототипа модель можно масштабировать, развернув, например, на GPU-серверах с картами RTX 3090.

Заключение

По итогам тестирования новых графических решений семейства GeForce RTX 3000 можно с уверенностью утверждать, что компания NVIDIA блестяще справилась с задачей выпуска доступных видеокарт с тензорными ядрами, достаточно производительными для быстрых ИИ-вычислений. В некоторых задачах обучения сетей, таких как работа с разреженными сетями (Sparse network), преимущества архитектуры Ampere над поколением RTX20 позволяют добиться ускорения процесса в два раза.

Преимущества использования GPU-серверов с картами GeForce RTX 3090 особенно очевидны в задачах, где обучение моделей связано с повышенными требованиями к объему памяти — при анализе медицинских снимков, современном моделировании компьютерного зрения и везде, где есть необходимость обработки очень крупных изображений — например, при работе с GAN-архитектурами.

В то же время RTX 3080 с ее 10 Гбайт графической памяти вполне подойдет для работы с задачами глубокого машинного обучения, поскольку для изучения основ большинства архитектур вполне достаточно уменьшить размер сетей или использовать на входе изображения меньшего размера, а затем при необходимости масштабировать модель до необходимых параметров на более мощных GPU-серверах.

С учетом того, что память HBM, применяемая в картах класса A100, вряд ли существенно подешевеет в ближайшее время, можно сказать, что карты RTX 3090 / RTX 3080 являются вполне эффективной инвестицией на несколько ближайших лет.

Нидерландский хостинг-провайдер HOSTKEY предлагает широкий ассортимент GPU-серверов в дата-центрах в Нидерландах и в Москве на основе как GPU последнего поколения RTX3080 и RTX3090, так и на основе карт предыдущих поколений RTX2080Ti и GTX1080Ti/1080. Компания предлагает как готовые к работе серверы, так и серверы с индивидуальными конфигурациями, которые идеально отвечают потребностям заказчика. Компания благодарит Эмиля Закирова и Александра Широносова за помощь в проведении тестов.

Постоянный URL: http://servernews.ru/1025021
10.11.2020 [00:54], Владимир Мироненко

936 узлов cуперкомпьютера Grace получат Intel Xeon и микс из NVIDIA A100, RTX 6000 и T4

Техасский университет A&M планирует ускорить проведение исследований с помощью нового суперкомпьютера Grace на базе ускорителей NVIDIA, названного в честь пионера программирования Грейс Хоппер (Grace Hopper) и способного выполнять вычисления почти в 20 раз быстрее своего предшественника Ada. Основным поставщиком системы Grace является Dell Technologies.

Сообщается, что Grace состоит из 936 узлов: 800 вычислительных узлов, каждый из которых оснащён двумя процессорами Intel Xeon Scalable 2-го поколения (Cascade Lake) с тактовой частотой 3,0 ГГц и 384 Гбайт памяти DDR4; 100 таких же узлов, дополненных NVIDIA A100 для вычислений двойной точности (FP64); семнадцать узлов GPU для вычислений одинарной точности (FP32), девять из которых используют графические процессоры NVIDIA RTX 6000, а восемь — ускорители NVIDIA T4; восемь узлов с увеличенным объёмом памяти (более 3 Тбайт) и четырьмя 20-ядерными процессорами Intel Xeon Cascade Lake с частотой 2,5 ГГц; пять узлов для доступа к системе и шесть узлов управления.

Эти узлы обслуживаются сетью NVIDIA HDR InfiniBand и дополнены 5,12-Пбайт хранилищем DDN. Как ожидается, Grace будет способен обеспечить пиковую производительность до 6,2 Пфлопс. Для сравнения, у его предшественника Ada пиковая производительность равна 337 Тфлопс. Учёные университета получат к ней доступ в декабре этого года.

Техасский университет A&M отметил, что обновление суперкомпьютера является необходимым для удовлетворения его растущих вычислительных потребностей: число пользователей высокопроизводительных вычислений почти удвоилось всего за последние четыре года. Они, как сообщает университет, используют суперкомпьютеры для проведения исследований в самых разных областях, от разработки лекарств и биофизики до квантовых вычислений и создания автономных транспортных средств.

Постоянный URL: http://servernews.ru/1024952
03.11.2020 [14:01], Владимир Мироненко

AWS предлагает облачные кластеры с 4 тыс. NVIDIA A100

AWS представила новое поколение инстансов EC2 с ускорителями NVIDIA A100, получившее название AWS P4d. Инстансы AWS P4d поддерживаются восемью процессорами A100 с архитектурой Ampere, подключёнными через интерфейс NVLink, которые обеспечат 2,5 петафлопс производительности с плавающей запятой и 320 Гбайт памяти GPU с высокой пропускной способностью на одной машине.

В дополнение к этому новые инстансы P4d также будут иметь 96 vCPU на базе Intel Xeon Scalable поколения Cascade Lake, в общей сложности 1,1 Тбайт системной памяти и NVMe-хранилище ёмкостью 8 Тбайт.

Согласно AWS, новые инстансы первыми сетевоего подключение 400 Гбит/с с использованием адаптера Elastic Fabric (EFA) и поддержкой технологии NVIDIA GPUDirect RDMA, которая позволит разгрузить центральные процессоры серверов виртуализации. Общая пропускная способность сети в 16 раз больше, чем у инстансов P3 последнего поколения с графическими процессорами NVIDIA V100.

Amazon утверждает, что новые инстансы P4d обеспечивают снижение затрат на машинное обучение до 60 % и повышение производительности глубокого обучения более чем в 2,5 раза. Новые инстансы Amazon P4d позволят обучать более крупные и сложные модели, которые сегодня становятся все более и более распространёнными.

Кроме того, Amazon также предоставляет возможность создавать экземпляры P4d с EC2 UltraClusters. EC2 UltraClusters, адаптированные для случаев использования, требующих максимальной вычислительной мощности, могут масштабироваться до 4000 единиц GPU A100, что вдвое больше, чем у любого другого поставщика облачных услуг.

Что касается цен, AWS пока предлагает только одну конфигурацию для инстансов P4d. Конфигурация p4d.24xlarge с 8 GPU NVIDIA A100, 96 vCPU, 400Gb-подключением, NVMe SSD на 8 ТБайт, пропускной способностью EBS-томов 19 Гбит/с и коммутаторов NVSwitch в пределах 600 Гбит/с обойдётся в $32,77 в час. Если вы зарезервируете экземпляр на один или три года, то почасовые затраты снизятся до $19,22 и $11,57 соответственно.

Постоянный URL: http://servernews.ru/1024457
27.10.2020 [16:43], Игорь Осколков

HOSTKEY объявила о доступности GPU-серверов с GeForce RTX 3090 и RTX 3080

Компания HOSTKEY сообщила о доступности для аренды в Москве и Нидерландах серверов с новейшими ускорителями NVIDIA GeForce RTX 3080 и RTX 3090. 

Согласно внутренним тестам компании, новые конфигурации машин с RTX 3080 и RTX 3090 в задачах, связанных с машинным обучением, быстрее систем с RTX 2080 Ti (GPU прошлого поколения) до 30% и 40% соответственно.

Доступные для заказа конфигурации в Нидерландах:

  • NVIDIA GeForce RTX 3090 / Intel Xeon E-2288G (8 ядер 3,7 ГГц) / 32 Гбайт RAM / 480 Гбайт SSD — €249/мес.
  • 2 × NVIDIA GeForce RTX 3090 / Intel Xeon E-2288G (8 ядер 3,7 ГГц) / 64 Гбайт RAM / 960 Гбайт SSD — €415/мес.
  • 4 × NVIDIA GeForce RTX 3090 / Intel Xeon E-2288G (8 ядер 3,7 ГГц) / 128 Гбайт RAM / 960 Гбайт SSD — €729/мес.

Срок сдачи — до 10 рабочих дней.

Доступная для заказа конфигурация в Москве:

  • NVIDIA GeForce RTX 3080 / AMD Ryzen 9 3900 (12 ядерр 3,7 ГГц) / 32 Гбайт RAM / 480 Гбайт SSD — €199/мес.

Срок сдачи — 1 рабочий день.

Конфигурации могут быть изменены под потребности заказчика. Если для вашего проекта требуется больший объем оперативной памяти или дискового пространства, свяжитесь с отделом продаж.

Компания предупреждает, что из-за высокого спроса на новые серверы и в связи с дефицитом новых карт на рынке первая поставка новых серверов будет быстро распродана. Не упустите момент одним из первых оценить возможности новых карт!

Постоянный URL: http://servernews.ru/1023914
15.10.2020 [23:59], Владимир Мироненко

NVIDIA и EuroHPC построят четыре суперкомпьютера, включая мощную систему Leonardo

Совместное предприятие «EuroHPC JU» (European High Performance Computing Joint Undertaking) со штаб-квартирой в Люксембурге, представляющее интересы 32 стран Европы, в июне 2019 года выбрало восемь суперкомпьютерных центров по всему Европейскому Союзу в качестве мест для размещения первых восьми суперкомпьютерных систем EuroHPC.

Компания NVIDIA объявила в четверг, что её продукты будут обеспечивать функционирование по меньшей мере четырёх из них: Leonardo, который будет эксплуатироваться консорциумом CINECA в Италии; Meluxina (LuxConnect, Люксембург); EURO IT4I в Национальном суперкомпьютерном центре IT4Innovations в Чешской Республике; и Vega, размещённом в Институте информатики (IZUM) в Словении.

Все четыре системы будут использовать графические процессоры NVIDIA Ampere и сеть на базе NVIDIA HDR InfiniBand. Компания HPE построит суперкомпьютер EURO IT4I, в строительстве остальных в качестве основного подрядчика выступит Atos. У MeluXina будет 800 графических процессоров NVIDIA A100, у EURO IT4I — 560 штук NVIDIA A100, а у Vega — 240 графических процессоров NVIDIA A100. Ожидается, что Meluxina обеспечит пиковую производительность в пределах 10 Пфлопс, EURO IT4I — 15,2 Пфлопс и Vega — 6,8 Пфлопс, что позволит всем трём попасть в рейтинг TOP-500. 

Настоящим гигантом на их фоне выглядит суперкомпьютерная система CINECA Leonardo, которая, как ожидается, будет иметь пиковую производительность более 200 Пфлопс. Её стоимость составит до 240 млн евро. Половину суммы выделит EuroHPC, вторую половину — Министерство просвещения, университетов и научных исследований Италии. Leonardo — один из трёх запланированных к созданию EuroHPC JU суперкомпьютеров преэкзафлопсного класса.

Leonardo будет содержать около 14 000 новейших графических процессоров NVIDIA A100, распределённых между примерно 3500 узлами Atos Sequana, каждый из которых будет оснащён четырьмя A100 и одним процессором Intel (по всей видимости, 10-нм Sapphire Rapids Xeon Scalable), установленным на основной плате NVIDIA HGX. Узлы с водяным охлаждением будут использовать сеть NVIDIA Mellanox HDR InfiniBand 200 Гбит/с, которая, по словам CINECA, поддерживается за счёт интеллектуального ускорения вычислений в сети, обеспечивающего низкую задержку и высокую пропускную способность данных.

Ожидается, что другие системы, созданные Atos, будут использовать очень похожие конфигурации, за исключением очевидных расхождений в масштабе, в то время, как система, созданная HPE, будет основана на конфигурации HPE Apollo 6500.

При условии своевременного строительства центра обработки данных, развертывание Leonardo предполагается начать в 2021 году с вводом в эксплуатацию в 2022 году. Он будет использоваться CINECA для самых разных исследований, включая разработку лекарств, исследование космоса, моделирование погоды, материаловедение и климатическое моделирование.

Постоянный URL: http://servernews.ru/1023061
Система Orphus