Материалы по тегу: rtx

11.11.2020 [13:10], SN Team

Сравнительное тестирование GPU-серверов с видеокартами NVIDIA RTX3000 в задачах AI/ML

Партнёрский материал

В начале сентября 2020 г. компания NVIDIA впервые представила графические карты семейства GeForce RTX 3000 на базе архитектуры RTX второго поколения — Ampere. NVIDIA нарушила свою традицию, когда новые поколения карт продавались дороже своих предшественников, а это значит, что стоимость тренировки модели оставалась примерно на одном уровне.

В этот раз NVIDIA установила стоимость новых и более популярных карт на уровне стоимости карт предыдущего поколения в момент начала их продаж. Для разработчиков ИИ-приложений это событие стало действительно важным — по сути, карты RTX 3000 открывают доступ к производительности, сравнимой с Titan RTX, но с гораздо более приятным ценником. Теперь у разработчиков data science появилась возможность тренировать модели быстрее без увеличения затрат.

Флагманские карты новой серии GeForce RTX 3090 получили 10 496 ядер NVIDIA CUDA с тактовой частотой 1,44 ГГц (ускорение до 1,71 ГГц), 328 тензорных ядер третьего поколения и 24 Гбайт 384-битной графической памяти GDDR6X. Еще более доступная по цене GeForce RTX 3080 обладает 8 704 ядрами CUDA с теми же тактовыми частотами, 272 тензорными ядрами и 10 Гбайт 320-битной памяти GDDR6X. Несмотря на дефицит новых видеокарт (NVIDIA даже была вынуждена приносить извинения рынку за образовавшуюся нехватку карт на старте продаж), уже в начале октября GPU-серверы появились в линейке продуктов у хостинг-провайдеров.

Нидерландский провайдер HOSTKEY одним из первых в Европе протестировал и представил GPU-серверы на базе новых карт GIGABYTE RTX3090/3080 TURBO. С 26 октября конфигурации на базе RTX 3090/Xeon E-2288G и RTX 3080/AMD Ryzen 9 3900X стали доступны всем клиентам HOSTKEY в дата-центрах в Нидерландах и Москве.

NVIDIA RTX 3000: золотая середина?

Карты RTX3090/3080 позиционируются производителем как более производительное решение на замену карт серии RTX 2000 с предыдущей архитектурой Turing. И, конечно, серверы с новыми картами значительно производительнее, чем доступные «народные» GPU-серверы на базе видеокарт GTX1080 (Ti), которые тоже пригодны для работы с нейросетями и прочими задачами машинного обучения (хотя и с оговорками), но при этом доступны по совсем уж «демократичным» ценам.

«Над» серией NVIDIA RTX 3000 располагаются все мощные решения на базе карт класса A100/A40 (Ampere) с тензорными ядрами третьего поколения числом до 432, Titan RTX/T4 (Turing) с тензорными ядрами второго поколения в количестве до 576, и V100 (Volta) с 640 тензорными ядрами первого поколения. Ценники на эти мощные карты, равно как и на аренду GPU-серверов с ними, значительно превышают предложения с RTX 3000, поэтому особенно интересно оценить на практике разрыв в производительности в задачах AI/ML.

Практические исследования

Face Reenactment

Одной из рабочих задач для оперативного тестирования GPU-серверов на основе новых карт RTX 3090 и RTX 3080 был выбран процесс Face Reenactment для нейросети U-Net+ResNet с пространственно-адаптивной нормализацией SPADE и patch-дискриминатором. В качестве фреймворка использовался Facebook PyTorch версии 1.6 со встроенным автоматическим режимом Automated mixed precision (AMP), а также режимом флага torch.backend.cudnn.benchmark = True.

Для сравнения этот же тест был запущен на GPU-сервере с картой GeForce GTX 1080 Ti, но уже без AMP, который только замедлил бы процесс, а также на машине с картой Titan RTX. Для чистоты эксперимента следует упомянуть, что в этом тестировании с картой Titan RTX использовалась система на процессоре Intel Core i9-10920X, в то время как остальные GPU-серверы со всеми остальными картами работали на Xeon E-2288G.

Безусловно, сравнение при классификации важно производить на одинаковых процессорах, поскольку именно они зачастую являются «бутылочным горлышком», ограничивающим производительность системы. Так что доля скептицизма в отношении погрешности результатов тестирования GPU в данном случае вполне уместна. Мы получили следующие результаты:

Минимальная разница между результатами RTX 3090 и Titan RTX выглядит особенно впечатляюще, если вспомнить об огромном ценовом разрыве между этими решениями. В следующем тестировании RTX 3090 заслуживает, как минимум, полноценного глубокого сравнения с GPU-сервером на базе одной и двух карт RTX 2080. Отставание RTX 3080 от RTX 3090 вполне объяснимо значительной разницей в объеме памяти — 10 Гбайт против 24 ГБ, на соответственное двух- и трехкратное отставание GTX 1080 Ti также наложила свой отпечаток разница в архитектурах.

Если же посмотреть на эти результаты с практической точки зрения, то есть в плане оценки финансовых расходов на обучение модели в случае аренды GPU-сервера, то чаша весов окончательно склоняется в пользу выбора системы с RTX 3090 — именно эта карта обеспечит наилучший использование бюджета как при недельном, так и при месячном тарифных планах.

Обучение GAN

Во второй тестовой задаче, которая заключалась в тренировке генеративно-состязательной нейронной сети (Generative Adversarial Network, GAN) с пакетом PyTorch, было интересно не только сравнить производительность карт различных поколений, но также отследить влияние состояния флага torch.backends.cudnn.benchmark на финальные результаты. При обучении GAN-архитектуры включение флага в положение True дает прирост производительности, но при этом может пострадать воспроизводимость результатов (Reproducibility).

Полученные результаты еще раз доказывают, что карта RTX 3090 с ее 24 Гбайт памяти GDDR6X представляет собой лучший выбор для решения тяжелых задач по обработке изображений. Как по производительности (выигрыш на 65% по сравнению с RTX 3080), так и по затратам на тренинг модели при аренде GPU-сервера в пересчёте на стоимость тренировки.

RTX 3080 значительно обошла по производительности GTX 1080 Ti, причём с любой установкой флага и несмотря на примерный паритет объема памяти. Однако следует помнить, что при обучении GAN-архитектуры включение флага torch.backends.cudnn.benchmark=True дает прирост производительности, но при этом может пострадать воспроизводимость результатов. причем,

Так что аренда более доступного GPU-сервера с картами GTX 1080 Ti при некоторых условиях может быть вполне разумным выбором — или, как минимум, сравнима по бюджету на тренинги моделей с RTX 3080. К сожалению, на прогон этой сетки через Titan RTX времени уже не оставалось, но с большой вероятностью картина в этом случае осталась бы аналогичной.

Обучение и инференс в vision-задачах

В следующей тестовой задаче по тренингу сетей в vision-задачах производительность видеокарт RTX 3090 и RTX 3080 сравнивалась с возможностями мощнейшего (и все еще очень дорогого) «ветерана» Tesla V100 с 16 Гбайт памяти HBM2.  Было протестировано пять классификационных моделей для обнаружения объектов со следующими тренинговыми установками: model forward + mean (no loss) + backward.

Тестовые задания запускались с применением последней версии фреймворка NVIDIA PyTorch (20.09-py3 от 24 октября). К сожалению, эта версия не собрана под архитектуру Ampere, поэтому для полноценной поддержки видеокарт RTX 3000 пришлось использовать PyTorch версии nightly build, а именно 1.8.0.dev20201017+cu110. У серии RTX 3000 также есть некоторые проблемы с torch.jit, но вопрос полностью снимается при сборке PyTorch под конкретную карту. Во всех тестах PyTorch использовался с автоматическим скриптом Mixed Precision, с включенным по умолчанию флагом torch.backend.cudnn.benchmark = True. 

Стоит упомянуть некоторые нюансы этого сравнения. В частности, была задействована не самая быстрая V100, которая работала внутри виртуальной машины. Из-за этого могли возникнуть некоторые потери, которые, вполне возможно, можно было бы оптимизировать при лучшей настройке. Помимо этого, в процессе тестирования не была задействована вся доступная VRAM, что позволило бы придать расчетам дополнительное ускорение.

Classification Training

Задача обучения сложных моделей нейросетей является профильным заданием для GPU-серверов на картах NVIDIA, позволяя порой на порядки сократить время тренировки алгоритмов глубокого обучения.

В условиях запуска задачи для получения результатов бенчмарка пересылка обнаружения объектов производилась без NMS, а пересылка для обучения не включала сопоставления целей. Иными словами, на практике скорость обучения с большой вероятностью замедлится на 10-20%, а скорость вывода снизится примерно на 20-30%.

Classification Inference

В данном случае инференс — это процесс получения предсказаний посредством прогона изображений через заранее обученную нейронную сеть, который вполне подходит для развертывания на удаленном GPU-сервере.

В целом можно говорить о том, что в заданиях тренировки и инференса сетей в Vision-задачах карта RTX 3090 медленнее Tesla V100 в среднем всего на 15-20%, и это очень впечатляюще — особенно с учетом разницы в цене.

Показателен и тот факт, что отставание RTX 3080 от RTX 3090 относительно невелико — по крайней мере, значительно меньше, чем при выполнении других задач. На практике это означает, что даже со сравнительно небольшим бюджетом, выделенным на аренду GPU-сервера на базе RTX 3080, можно добиться достаточно высокой производительности лишь с небольшим увеличением затрат времени на обработку данных.

Detection Training

Тестирование RetinNet c ResNet50FPN для обнаружения объектов производилось с указанными выше параметрами PyTorch (20.09-py3 от 24 октября), с флагом torch.backend.cudnn.benchmark=True и с тренинговыми установками model forward + mean (no loss) + backward.

Detection Inference

Здесь отставание карт серии RTX30 уже минимально, что говорит о несомненных преимуществах новой архитектуры Ampere для решения подобных задач. Карта RTX 3090 показала себя просто великолепно.

Сравнительно небольшое отставание бюджетной карты говорит о том, что благодаря отличному соотношению цена/возможности RTX 3080 может стать желанным выбором для решения задач прототипирования с экономичным бюджетом. По завершению создания прототипа модель можно масштабировать, развернув, например, на GPU-серверах с картами RTX 3090.

Заключение

По итогам тестирования новых графических решений семейства GeForce RTX 3000 можно с уверенностью утверждать, что компания NVIDIA блестяще справилась с задачей выпуска доступных видеокарт с тензорными ядрами, достаточно производительными для быстрых ИИ-вычислений. В некоторых задачах обучения сетей, таких как работа с разреженными сетями (Sparse network), преимущества архитектуры Ampere над поколением RTX20 позволяют добиться ускорения процесса в два раза.

Преимущества использования GPU-серверов с картами GeForce RTX 3090 особенно очевидны в задачах, где обучение моделей связано с повышенными требованиями к объему памяти — при анализе медицинских снимков, современном моделировании компьютерного зрения и везде, где есть необходимость обработки очень крупных изображений — например, при работе с GAN-архитектурами.

В то же время RTX 3080 с ее 10 Гбайт графической памяти вполне подойдет для работы с задачами глубокого машинного обучения, поскольку для изучения основ большинства архитектур вполне достаточно уменьшить размер сетей или использовать на входе изображения меньшего размера, а затем при необходимости масштабировать модель до необходимых параметров на более мощных GPU-серверах.

С учетом того, что память HBM, применяемая в картах класса A100, вряд ли существенно подешевеет в ближайшее время, можно сказать, что карты RTX 3090 / RTX 3080 являются вполне эффективной инвестицией на несколько ближайших лет.

Нидерландский хостинг-провайдер HOSTKEY предлагает широкий ассортимент GPU-серверов в дата-центрах в Нидерландах и в Москве на основе как GPU последнего поколения RTX3080 и RTX3090, так и на основе карт предыдущих поколений RTX2080Ti и GTX1080Ti/1080. Компания предлагает как готовые к работе серверы, так и серверы с индивидуальными конфигурациями, которые идеально отвечают потребностям заказчика. Компания благодарит Эмиля Закирова и Александра Широносова за помощь в проведении тестов.

Постоянный URL: http://servernews.ru/1025021
25.06.2020 [14:17], Юрий Поздеев

SmartX Optane DIMM DAX: быстрая гиперконвергентная система на Intel Optane

Китайский производитель гиперконвергентных решений SmartX выпустил решение Halo P, использующее для кеширования Optane PMem, что позволяет выдать 1,2 миллиона IOPS с задержкой не более 100 мкс и пропускную способность до 25 Гбайт/с. Стенд для демонстрации решения был построен на основе трехузловой системы Lenovo и с использованием накопителей NVMe.

Каким образом SmartX удалось снизить задержку доступа до такой малой величины? Ответ простой — использование собственной ОС SMTX и модулей Optane DCPMM в режиме App Direct (DAX).

Это решение позволяет сохранять данные любого узла в кеше из модулей памяти Optane, при этом на другие узлы данные так же реплицируются с использованием протокола RDMA, который уменьшает задержку до подтверждения записи данных. Далее данные из кеша записываются на твердотельные накопители и хранятся там, пока снова не потребуются.

OC SMTX использует 64-байтовое выравнивание для журнала блоков, вместо 4 Кбайт (для SSD), таким образом решается проблема с лишними операциями записи (когда не набирается блок в 4 Кбайта). Кроме этого, виртуализованное хранилище передается в программный стек ВМ через отдельный протокол SMTX ELF, что позволяет избежать снижения производительности, вызванного запросами ввода-вывода от виртуальных машин.

Память системы хранения и виртуальной машины разделяется, чтобы избежать репликации памяти и замедления операций ввода-вывода. RDMA over Converged Ethernet (RoCE) используется для ускорения сетевых запросов ввода-вывода через сетевые карты (работа с разными узлами хранилища).

SmartX заявляет, что это самое быстрое в мире решение с гиперконвергентной системой. SmartX позиционирует свое решение HaloP для работы с базами данных OLTP и машинного обучения.

Постоянный URL: http://servernews.ru/1014194
23.01.2020 [18:49], Сергей Карасёв

PNY выпустила ЦОД-версии Quadro RTX с пассивным охлаждением

Компания PNY Technologies анонсировала новые версии ускорителей NVIDIA Quadro RTX 8000 и Quadro RTX 6000, предназначенные для использования в центрах обработки данных. 

Особенность новинок PNY в том, что они наделены пассивной системой охлаждения. Отмечается, что эти карты подходят для использования в существующих (или будущих) серверных шасси, рассчитанных на полноразмерные двухслотовые ускорители NVIDIA Tesla. 

Решения Quadro RTX 8000 и Quadro RTX 6000 на архитектуре Turing были представлены компанией NVIDIA ещё в 2018 году. Подробно об этих изделиях можно узнать в нашем материале. Напомним, что первый из названных ускорителей располагает 48 Гбайт памяти GDDR6, а второй — 24 Гбайт. При этом оба содержат 4608 ядер CUDA, 576 тензорных ядер и 72 RT-ядра.

Замена профильных изделий Tesla на карты Quadro RTX 8000 и Quadro RTX 6000 может оказаться выгодной с точки зрения соотношения цены и производительности. При этом применение пассивного охлаждения позволит устанавливать ускорители в те корпуса, для которых не подходят карты с активным кулером. Отметим, что ранее появилась информация о ЦОД-варианте NVIDIA GeForce RTX 2080 Ti с пассивным охлаждением. 

Постоянный URL: http://servernews.ru/1002118
04.09.2019 [17:30], Андрей Созинов

IFA 2019: NVIDIA представила мобильную Quadro RTX 6000 — самую мощную профессиональную видеокарту для ноутбуков

Компания NVIDIA представила новый ускоритель серии Quadro RTX – мобильную версию Quadro RTX 6000. Новинка является, пожалуй, самой производительной профессиональной видеокартой в мобильном сегменте.

К сожалению, компания NVIDIA не стала раскрывать полный список характеристик новинки. Известно лишь, что мобильная Quadro RTX 6000 обладает 24 Гбайт видеопамяти GDDR6.

Столько же имеет и настольная версия данной видеокарты, которая также обладает 4608 ядрами CUDA, 576 тензорными ядрами и 72 RT-ядрами. 

Скорее всего, мобильная RTX 6000 будет отличаться лишь более низкими таковыми частотами и сохранит конфигурацию ядер. Однако наверняка это будет известно несколько позже.

Также NVIDIA представила эталонную систему с новой профессиональной видеокартой, которая называется Ace Reference Design.

Эта мобильная рабочая станция обладает продвинутой системой охлаждения с ультратонкими титановыми испарительными камерами, поддерживает NVIDIA Optimus, комплектуется тонким и компактным блоком питания мощностью 300 Вт, а также профессиональным дисплеем с разрешением 4K, частотой 120 Гц, и 100 % охватом цветового пространства Adobe RGB.

На основе данной эталонной системы был создан ASUS ProArt StudioBook One, с которым мы уже подробно познакомились сегодня в рамках IFA 2019. Кроме того, сертификацию RTX Studio теперь имеют ещё 12 устройств. Среди них, например, ноутбуки Acer ConceptD 7 Pro и ConceptD 9 Pro, также продемонстрированные на IFA 2019. 

NVIDIA заявляет, что мобильная версия Quadro RTX 6000 устраняет существенный разрыв в производительности, который в настоящее время существует между мобильной Quadro RTX 5000 и настольной Quadro RTX 6000. Отставание должно составить примерно 10 % при обработке графики, редактировании видео, рендеринге и в задачах, связанных с Искусственным интеллектом. 

NVIDIA также упоминает о поддержке трассировки лучей в реальном времени в более чем 40 профессиональных приложениях, включая Adobe Photoshop Lightroom, Autodesk Arnold, Blender, Renderman и другие.

Постоянный URL: http://servernews.ru/991999
04.05.2019 [11:00], Андрей Созинов

NVIDIA готовит мобильное семейство профессиональных видеокарт Quadro на базе Turing

Компания NVIDIA готовит мобильную серию профессиональных видеокарт Quadro на базе графических процессоров Turing. Новинки упоминаются во внутренней документации компании Dell, которая «утекла» в Сеть стараниями ресурса Tweakers, который не так давно раскрыл информацию о будущем процессоров Intel.

К сожалению, конкретные модели видеокарт, компания Dell в своих документах не уточняет, а лишь указывает уровень ускорителя. Так, наиболее продвинутые комплектации ноутбуков Precision 7540 и Precision 7740 получат некие видеокарты Quadro RTX с наиболее высоким уровнем производительности. Причём, это могут быть две разные модели, относящиеся к верхнему сегменту.

На такое предположение наталкивают альтернативные GPU для этих ноутбуков. Так, более крупный 17-дюймовый Precision 7740 будет также предлагаться с мобильной версией Radeon Pro WX 7100, которая является аналогом Radeon RX 580. В свою очередь 15-дюймовый Precision 7540 сможет предложить Radeon Pro WX4150 — аналог Radeon RX 460. Соответственно, в первом случае может быть использован ускоритель Quadro RTX на базе более мощного Turing TU104, а во втором — на Turing TU106.

Ещё одним ноутбуком с некой новой Quadro станет Precision 5540. Тут также не уточняется модель видеокарты, а лишь указано что это будет некая «новая Quadro среднего уровня». Отсутствие в названии «RTX» может указывать на то, что эта видеокарта будет построена на Turing TU116 и не сможет предложить аппаратное ускорение трассировки лучей. Тем не менее, она также должна обеспечить весьма неплохой уровень производительности.

Напомним, что младшей настольной Quadro RTX на данный момент является модель Quadro RTX 4000 на базе графического процессора TU104 с 2304 ядрами CUDA и 8 Гбайт памяти GDDR6. Следом за ней идёт уже Quadro RTX 5000 на базе Turing TU102. Поэтому, скорее всего, в мобильном сегменте флагманом станет как раз Quadro RTX 4000, а не более старшая модель, так как графический процессор TU102 может быть слишком мощным даже для мобильных рабочих станций. А вот менее производительные профессиональные видеокарты в мобильном сегменте явно появятся.

Постоянный URL: http://servernews.ru/986932
Система Orphus