Сравнение производительности и стоимости GPU-серверов с видеокартами NVIDIA серий RTX и GTX разных поколений

 
Партнёрский материал

На смену устаревшей серии GTX10 и дефицитной RTX30 пришли наследницы серии Quadro — GPU NVIDIA RTX A4000 и А5000 на базе текущей архитектуры Ampere, которые были анонсированы в апреле 2021 года. Инженеры HOSTKEY сравнили эффективность использования новых ускорителей в GPU-серверах на различных типах нагрузок.

Ampere использует 8-нм техпроцесс от Samsung и поддерживает высокоскоростную память HBM2 и GDDR6(X). GDDR6X является шестым поколением памяти DDR SDRAM и может достигать скорости до 21 Гбит/с. В А5000 и А4000 NVIDIA использует ядра RT 2-го поколения и тензорные ядра 3-го поколения, позволяющие обеспечить двукратный прирост производительности по сравнению со старыми ядрами Turing. Новинки используют стандарт PCIe 4.0, что позволяет убрать узкие места при обмене данными с GPU.

В Ampere используется новая версия CUDA 8+. На чипе теперь есть два потоковых мультипроцессора, что обеспечивает значительный рост производительности FP32-вычислений по сравнению с картами на базе Turing. Старшие GPU A5000 и выше поддерживают NVLink 3.0 для попарного объединения карт, что это приводит к кратному увеличению производительности.

Технические характеристики видеокарт NVIDIA RTX A4000 и RTX A5000, RTX 3090, Quadro RTX 4000

На новых картах куда больше памяти, это позволяет эффективно работать с нейросетями и изображениями. Другим существенным отличием RTX A4000 и RTX A5000 является аппаратное ускорение размытия движения, позволяющее значительно сократить время и затраты на при рендеринге.

NVIDIA Quadro RTX 4000 GTX 1080 TI RTX A4000 RTX A5000 RTX 3090
Архитектура Turing Pascal Ampere Ampere Ampere
Техпроцесс, нм 12 16 8 8 8
Графический процессор TU104 GP102 GA102 GA104 GA102
Количество транзисторов, млрд шт. 11,8 13,6 17,4 28,3 28,3
Пропускная способность памяти, Гбайт/с 416 484 448 768 936,2
Разрядность шины памяти, бит 256 352 256 384 384
Тип памяти GDDR6 GDDR5X GDDR6 GDDR6 GDDR6X
Объём памяти, Гбайт 8 11 16 24 24
ECC-память нет нет да да нет
Ядра CUDA, шт. 2304 3584 6144 8192 10496
Тензорные ядра, шт. 288 нет 192 256 328
Ядра RT, шт. 36 нет 48 64 82
FP32, Тфлопс 7,1 11,34 19,2 27,8 35,6
RT, Тфлопс Н/Д нет 37,4 54,2 69,5
Tensor, Тфлопс 57 нет 153,4 222,2 285
Макс. мощность, Вт 160 Вт 250 Вт 140 Вт 230 Вт 350 Вт
Интерфейс PCIe 3.0 x16 PCIe 3.0 x16 PCIe 4.0 x16 PCIe 4.0 x16 PCIe 4.0 x16
Форм-фактор 1 слот 2 слота 1 слот 2 слота 2-3 слота
Поддержка vGPU нет нет нет полная ограниченная
NVLink нет нет нет 2×GPU 2×GPU
Версия CUDA 7.5 6.1 8.6 8.6 8.6
Поддержка VULKAN есть есть есть есть есть
Цена (руб.) 115 000 66 000 125 000 190 000 215 000

В старших картах от RTX A5000 есть поддержка vGPU и NVIDIA RTX vWS, что позволяет обеспечить совместное использование вычислительных ресурсов и виртуальных GPU несколькими пользователями. В среднем новые видеокарты NVIDIA обгоняют по производительности старую линейку Quadro в 1,5–2 раза и потребляют меньше электричества.

Тестирование HOSTKEY

Инженеры компании HOSTKEY провели собственное тестирование профессиональных видеокарт NVIDIA RTX A5000 и A4000 и сравнили их с RTX 3090 и Quadro RTX 4000 — представителем предыдущего поколения профессиональных видеокарт компании NVIDIA. Для тестов использовалась система следующей конфигурации:

  • Процессор OctaCore Intel Xeon E-2288G, 3,5 ГГц
  • 32 Гбайт DDR4-3200 ECC DDR4 SDRAM 1600 МГц
  • Samsung SSD 980 PRO 1Tбайт (1000 GB, PCI-E 4.0 x4)
  • Серверная материнская плата ASUS P11C-I Series (1 PCI-E x16, 1 M.2, 2 DDR4 DIMM, 2x Gigabit LAN + IPMI)
  • Microsoft Windows 10 Professional 64-бит.

Tест V-Ray GPU RT

 Tест V-Ray GPU RTX

Тест V-Ray GPU CUDA

Тесты V-Ray GPU CUDA и RTX позволяют измерить относительную производительность GPU при рендеринге. GPU RTX A4000 и RTX A5000 значительно превосходят по производительности Quadro RTX 4000 и GeForce GTX 1080 Ti (тест V-Ray GPU RTX на этой карте провести невозможно, т.к. она не поддерживает технологию RTX), но уступают RTX 3090, что объясняется высокой пропускной способностью памяти (936,2 Гбайт/с против 768 Гбайт/с у RTX A5000) и количеством потоковых процессоров (10496 против 8192 у RTX A5000).

«Собаки против кошек»

Для сравнения производительности GPU для нейросетей был использован набор данных «Собаки против кошек» — тест анализирует содержимое фотографии и различает изображена на фото кошка или собака. Все необходимые исходные данные находятся здесь. Также этот тест был выполнен на разных GPU в различных облачных сервисах. Получены следующие результаты:

 Полный цикл обучения

Полный цикл обучения

Полный цикл обучения тесовой нейросети занял от 5 до 30 мин. Результат NVIDIA RTX A5000 и A4000 составил 07:30 и 9:10 минут соответственно. Быстрее единичных NVIDIA RTX A5000 и A4000 работал только GPU-сервер с восемью картами GeForce RTX 2080Ti и с энергопотреблением около 2 кВт·ч. Видеокарты Tesla V100 прошлого поколения доступны в сервисах Google Cloud Compute Engine, Microsoft Azure и Amazon Web Services и показали наилучший результат из протестированных там карт.

Сколько стоит обучить нейросеть в разных местах?

На графике представлена стоимость обучения модели с использованием различных сервисов для следующих конфигураций:

  • AWS — AWS p3.2xlarge
  • Google Cloud — GCP Compute Engine
  • Microsoft Azure — Tesla V100
  • HOSTKEY — RTX А4000, RTX A5000

Заключение

Новые профессиональные видеокарты NVIDIA RTX A5000 и A4000 являются оптимальным решением для использования в GPU-серверах и позволяют выполнять сложные вычисления, производя быструю обработку больших массивов данных. Переход на новую архитектуру Ampere позволил значительно увеличить производительность новых профессиональных видеокарт NVIDIA. Улучшенные тензорные ядра и ядра RT значительно улучшают качество и возможности трассировки лучей в реальном времени.

Объем памяти в 16 Гбайт у NVIDIA RTX A4000 и 24 Гбайт у RTX A5000 позволяет обрабатывать большие массивы данных, а мост NVLink для A5000 объединяет две карты в одну, что даёт доступ уже к 48 Гбайт высокопроизводительной памяти. Что важно, лицензия на драйверы NVIDIA для профессиональных GPU (в отличие от игровых видеокарт) никак не ограничивает их использование в центрах обработки данных.

HOSTKEY рекомендует использовать современные выделенные и виртуальные GPU-серверы для рендеринга, транскодинга видео, обучения нейросетей и обработки данных уже обученными сетями. Если есть стабильный большой объем данных для обработки, аренда выделенных GPU-серверов может на порядок повысить скорость их обработки за те же деньги или позволит существенно сократить затраты на формирование собственной инфраструктуры.

Пока что HOSTKEY предоставляет GPU-серверы на базе помесячной оплаты, но в ближайшее время все эти машины будут доступны и в режиме почасовой оплаты с полной автоматизацией их предоставления клиенту при заказе через API. Кроме того, новые серверы с профессиональными картами RTX A5000 и A4000 доступны теперь не только в Нидерландах, но и в Москве.

HOSTKEY — динамично развивающийся хостинг-провайдер, который более 10 лет оказывает услуги по размещению и аренде серверов, проектированию и внедрению частных облаков, лизингу и обслуживанию оборудования. HOSTKEY предоставляет серверы в аренду в дата-центрах категории TIER III в Европе, США и России, а также оказывает услуги проектирования, запуска и поддержки приватных облаков, поддержки серверов в любых дата-центрах в Нидерландах. Компания работает как с корпоративными клиентами, так и с частными лицами.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источник:

Постоянный URL: https://servernews.ru/1050024
Система Orphus