На смену устаревшей серии GTX10 и дефицитной RTX30 пришли наследницы серии Quadro — GPU NVIDIA RTX A4000 и А5000 на базе текущей архитектуры Ampere, которые были анонсированы в апреле 2021 года. Инженеры HOSTKEY сравнили эффективность использования новых ускорителей в GPU-серверах на различных типах нагрузок.
Ampere использует 8-нм техпроцесс от Samsung и поддерживает высокоскоростную память HBM2 и GDDR6(X). GDDR6X является шестым поколением памяти DDR SDRAM и может достигать скорости до 21 Гбит/с. В А5000 и А4000 NVIDIA использует ядра RT 2-го поколения и тензорные ядра 3-го поколения, позволяющие обеспечить двукратный прирост производительности по сравнению со старыми ядрами Turing. Новинки используют стандарт PCIe 4.0, что позволяет убрать узкие места при обмене данными с GPU.

В Ampere используется новая версия CUDA 8+. На чипе теперь есть два потоковых мультипроцессора, что обеспечивает значительный рост производительности FP32-вычислений по сравнению с картами на базе Turing. Старшие GPU A5000 и выше поддерживают NVLink 3.0 для попарного объединения карт, что это приводит к кратному увеличению производительности.

Технические характеристики видеокарт NVIDIA RTX A4000 и RTX A5000, RTX 3090, Quadro RTX 4000
На новых картах куда больше памяти, это позволяет эффективно работать с нейросетями и изображениями. Другим существенным отличием RTX A4000 и RTX A5000 является аппаратное ускорение размытия движения, позволяющее значительно сократить время и затраты на при рендеринге.
NVIDIA | Quadro RTX 4000 | GTX 1080 TI | RTX A4000 | RTX A5000 | RTX 3090 |
Архитектура | Turing | Pascal | Ampere | Ampere | Ampere |
Техпроцесс, нм | 12 | 16 | 8 | 8 | 8 |
Графический процессор | TU104 | GP102 | GA102 | GA104 | GA102 |
Количество транзисторов, млрд шт. | 11,8 | 13,6 | 17,4 | 28,3 | 28,3 |
Пропускная способность памяти, Гбайт/с | 416 | 484 | 448 | 768 | 936,2 |
Разрядность шины памяти, бит | 256 | 352 | 256 | 384 | 384 |
Тип памяти | GDDR6 | GDDR5X | GDDR6 | GDDR6 | GDDR6X |
Объём памяти, Гбайт | 8 | 11 | 16 | 24 | 24 |
ECC-память | нет | нет | да | да | нет |
Ядра CUDA, шт. | 2304 | 3584 | 6144 | 8192 | 10496 |
Тензорные ядра, шт. | 288 | нет | 192 | 256 | 328 |
Ядра RT, шт. | 36 | нет | 48 | 64 | 82 |
FP32, Тфлопс | 7,1 | 11,34 | 19,2 | 27,8 | 35,6 |
RT, Тфлопс | Н/Д | нет | 37,4 | 54,2 | 69,5 |
Tensor, Тфлопс | 57 | нет | 153,4 | 222,2 | 285 |
Макс. мощность, Вт | 160 Вт | 250 Вт | 140 Вт | 230 Вт | 350 Вт |
Интерфейс | PCIe 3.0 x16 | PCIe 3.0 x16 | PCIe 4.0 x16 | PCIe 4.0 x16 | PCIe 4.0 x16 |
Форм-фактор | 1 слот | 2 слота | 1 слот | 2 слота | 2-3 слота |
Поддержка vGPU | нет | нет | нет | полная | ограниченная |
NVLink | нет | нет | нет | 2×GPU | 2×GPU |
Версия CUDA | 7.5 | 6.1 | 8.6 | 8.6 | 8.6 |
Поддержка VULKAN | есть | есть | есть | есть | есть |
Цена (руб.) | 115 000 | 66 000 | 125 000 | 190 000 | 215 000 |
В старших картах от RTX A5000 есть поддержка vGPU и NVIDIA RTX vWS, что позволяет обеспечить совместное использование вычислительных ресурсов и виртуальных GPU несколькими пользователями. В среднем новые видеокарты NVIDIA обгоняют по производительности старую линейку Quadro в 1,5–2 раза и потребляют меньше электричества.
Тестирование HOSTKEY
Инженеры компании HOSTKEY провели собственное тестирование профессиональных видеокарт NVIDIA RTX A5000 и A4000 и сравнили их с RTX 3090 и Quadro RTX 4000 — представителем предыдущего поколения профессиональных видеокарт компании NVIDIA. Для тестов использовалась система следующей конфигурации:
- Процессор OctaCore Intel Xeon E-2288G, 3,5 ГГц
- 32 Гбайт DDR4-3200 ECC DDR4 SDRAM 1600 МГц
- Samsung SSD 980 PRO 1Tбайт (1000 GB, PCI-E 4.0 x4)
- Серверная материнская плата ASUS P11C-I Series (1 PCI-E x16, 1 M.2, 2 DDR4 DIMM, 2x Gigabit LAN + IPMI)
- Microsoft Windows 10 Professional 64-бит.
Tест V-Ray GPU RT

Тест V-Ray GPU CUDA

Тесты V-Ray GPU CUDA и RTX позволяют измерить относительную производительность GPU при рендеринге. GPU RTX A4000 и RTX A5000 значительно превосходят по производительности Quadro RTX 4000 и GeForce GTX 1080 Ti (тест V-Ray GPU RTX на этой карте провести невозможно, т.к. она не поддерживает технологию RTX), но уступают RTX 3090, что объясняется высокой пропускной способностью памяти (936,2 Гбайт/с против 768 Гбайт/с у RTX A5000) и количеством потоковых процессоров (10496 против 8192 у RTX A5000).
«Собаки против кошек»
Для сравнения производительности GPU для нейросетей был использован набор данных «Собаки против кошек» — тест анализирует содержимое фотографии и различает изображена на фото кошка или собака. Все необходимые исходные данные находятся здесь. Также этот тест был выполнен на разных GPU в различных облачных сервисах. Получены следующие результаты:

Полный цикл обучения
Полный цикл обучения тесовой нейросети занял от 5 до 30 мин. Результат NVIDIA RTX A5000 и A4000 составил 07:30 и 9:10 минут соответственно. Быстрее единичных NVIDIA RTX A5000 и A4000 работал только GPU-сервер с восемью картами GeForce RTX 2080Ti и с энергопотреблением около 2 кВт·ч. Видеокарты Tesla V100 прошлого поколения доступны в сервисах Google Cloud Compute Engine, Microsoft Azure и Amazon Web Services и показали наилучший результат из протестированных там карт.
Сколько стоит обучить нейросеть в разных местах?

На графике представлена стоимость обучения модели с использованием различных сервисов для следующих конфигураций:
- AWS — AWS p3.2xlarge
- Google Cloud — GCP Compute Engine
- Microsoft Azure — Tesla V100
- HOSTKEY — RTX А4000, RTX A5000
Заключение
Новые профессиональные видеокарты NVIDIA RTX A5000 и A4000 являются оптимальным решением для использования в GPU-серверах и позволяют выполнять сложные вычисления, производя быструю обработку больших массивов данных. Переход на новую архитектуру Ampere позволил значительно увеличить производительность новых профессиональных видеокарт NVIDIA. Улучшенные тензорные ядра и ядра RT значительно улучшают качество и возможности трассировки лучей в реальном времени.
Объем памяти в 16 Гбайт у NVIDIA RTX A4000 и 24 Гбайт у RTX A5000 позволяет обрабатывать большие массивы данных, а мост NVLink для A5000 объединяет две карты в одну, что даёт доступ уже к 48 Гбайт высокопроизводительной памяти. Что важно, лицензия на драйверы NVIDIA для профессиональных GPU (в отличие от игровых видеокарт) никак не ограничивает их использование в центрах обработки данных.
HOSTKEY рекомендует использовать современные выделенные и виртуальные GPU-серверы для рендеринга, транскодинга видео, обучения нейросетей и обработки данных уже обученными сетями. Если есть стабильный большой объем данных для обработки, аренда выделенных GPU-серверов может на порядок повысить скорость их обработки за те же деньги или позволит существенно сократить затраты на формирование собственной инфраструктуры.
Пока что HOSTKEY предоставляет GPU-серверы на базе помесячной оплаты, но в ближайшее время все эти машины будут доступны и в режиме почасовой оплаты с полной автоматизацией их предоставления клиенту при заказе через API. Кроме того, новые серверы с профессиональными картами RTX A5000 и A4000 доступны теперь не только в Нидерландах, но и в Москве.
HOSTKEY — динамично развивающийся хостинг-провайдер, который более 10 лет оказывает услуги по размещению и аренде серверов, проектированию и внедрению частных облаков, лизингу и обслуживанию оборудования. HOSTKEY предоставляет серверы в аренду в дата-центрах категории TIER III в Европе, США и России, а также оказывает услуги проектирования, запуска и поддержки приватных облаков, поддержки серверов в любых дата-центрах в Нидерландах. Компания работает как с корпоративными клиентами, так и с частными лицами.
Источник: