Материалы по тегу: gpu

30.11.2020 [14:14], Сергей Карасёв

Новые GPU-серверы ASRock Rack выполнены на платформе AMD EPYC 7002

Компания ASRock Rack анонсировала серверы 3U4X-ROME/2T и 7U8X-ROME2/2T, предназначенные для построения систем высокопроизводительных вычислений на основе графических ускорителей. Обе новинки выполнены на платформе AMD с возможностью установки двух процессоров EPYC 7002.

Модель 3U4X-ROME/2T соответствует типоразмеру 3U. Доступны восемь слотов для модулей оперативной памяти DDR4-3200/2933. Система может быть оборудована двумя 2,5-дюймовыми накопителями NVMe, а также восемью SATA-устройствами — по четыре форматов 2,5 и 3,5 дюйма. Поддерживается архитектура NVIDIA HGX A100 на базе четырёх GPU. В оснащение входят два блока питания 80 PLUS Platinum мощностью 3000 Вт.

Вариант 7U8X-ROME2/2T стандарта 7U предоставляет 32 разъёма для модулей памяти DDR4-3200. Поддерживается использование до 16 твердотельных накопителей в виде карт AIC NVMe. Реализована поддержка NVIDIA HGX A100 для восьми GPU. Питание обеспечивают четыре блока 80 PLUS Platinum на 3000 Вт.

Оба сервера снабжены двумя сетевыми портами 10GbE на основе контроллера Intel X550. Младшая версия предоставляет слот PCIe 4.0 x16 для низкопрофильной карты расширения.

Постоянный URL: http://servernews.ru/1026623
24.11.2020 [19:36], Андрей Галадей

Проект ZLUDA позволит запускать CUDA-приложения на GPU Intel

Недавно Intel представила концепцию oneAPI, а в декабре ожидается «золотой релиз» всех инструментов. Но есть и альтернативный проект ZLUDA с открытым исходным кодом, который предоставляет реализацию CUDA на базе oneAPI Level Zero. Это позволит запускать программы, изначально «заточенные» под NVIDIA CUDA, на видеокартах Intel UHD и Xe.

Как отмечается, ZLUDA является независимым от NVIDIA и Intel проектом, хотя и использует API Level Zero. ZLUDA предоставляет альтернативную версии библиотеки libcuda и позволяет приложениям CUDA работать без каких-либо модификаци на графических картах Intel с «почти нативной» производительностью. Правда, потребуется графика не ниже Gen9.

engadget.com

engadget.com

ZLUDA всё ещё находится на ранней стадии разработки, но возможностей утилиты уже достаточно, чтобы запускать программу Geekbench с тестами CUDA. Хотя, само собой, о полной поддержке всех функций CUDA речи ещё не идёт. Как ожидается, в будущем ZLUDA сможет работать и поверх HIP-интерфейсов AMD в качестве альтернативы Intel Level Zero.

Новинка написана на языке Rust. Исходники доступны на GitHub. При этом отмечается, что новинка в ряде случаев идёт наравне или даже превосходит OpenCL в тесте GeekBench. Так что если повезёт, то простое использование CUDA будет возможно не только на картах NVIDIA.

Постоянный URL: http://servernews.ru/1026163
20.11.2020 [13:37], Сергей Карасёв

SC20: HPC-платформа HPE Apollo 6500 Gen10 Plus поддерживает ускорители A100 и MI100

Среди первых платформ, поддерживающих новые ускорители AMD Instinct MI100, была упомяната HPE Apollo 6500 Gen10 Plus. Она ориентирована на высокопроизводительные вычисления (HPC) и поддерживает не только новые решения AMD, но и HGX-платформу NVIDIA A100. В основе системы — серверы ProLiant XL645d и ProLiant XL675d на базе процессоров AMD EPYC.

Модель ProLiant XL645d допускает установку одного чипа семейства EPYC 7002 в расчёте на узел. Возможно использование NVIDIA HGX A100 4-GPU или четырёх двухслотовых или восьми однослотовых ускорителей PCIe. Например, MI100, объединённых мостиком Infinity Fabric. Модификация ProLiant XL675d имеет высоту 6U и рассчитана на два процессора EPYC 7002, а также десять двухслотовых или 16 однослотовых акселераторов PCIe или NVIDIA HGX A100 8-GPU.

Платформа HPE Apollo 6500 Gen10 Plus предлагает гибкие опции по использованию накопителей: это могут быть устройства SAS, SATA и NVMe. Допускается применение системы прямого жидкостного охлаждения.

В шасси типоразмера 6U могут быть установлены два 3U-сервера ProLiant XL645d или один сервер ProLiant XL675d. Новинки предназначены для решения задач в области искусственного интеллекта, глубокого обучения и т. п.

Постоянный URL: http://servernews.ru/1025877
18.11.2020 [12:03], Сергей Карасёв

HGX-системы GIGABYTE с новыми NVIDIA A100 получат воздушное и жидкостное охлаждение

Компания GIGABYTE Technology сообщила о планах по выпуску серверов, оснащённых новейшими ускорителями NVIDIA A100, располагающими 80 Гбайт памяти HBM2e. Эти акселераторы были официально представлены в рамках конференции SC20 — подробно о них можно узнать в нашем материале.

Сообщается, что GIGABYTE возьмёт на вооружение платформу NVIDIA HGX A100, которая объединяет в себе несколько графических ускорителей NVIDIA A100, соединённых высокоскоростным интерфейсом NVLink.

В ассортименте GIGABYTE появятся серверы, использующие акселераторы NVIDIA A100 с 40 и 80 Гбайт памяти. Эти системы будут использоваться в сферах высокопроизводительных вычислений, глубокого обучения, искусственного интеллекта и пр.

В частности, для платформы 4-GPU компания GIGABYTE создаст сервер G492-ZD0 с воздушным охлаждением, а также систему G492-ZL0 с жидкостным охлаждением. Кроме того, будут доступны 2U-версии G262-ZR0 и G262-ZL0, наделённые воздушным и жидкостным охлаждением соответственно.

Более подробную информацию о новинках разработчик раскроет позднее. Серверы станут доступны в первой четверти следующего года. 

Постоянный URL: http://servernews.ru/1025642
17.11.2020 [18:43], Сергей Карасёв

Сервер TYAN Thunder HX FT83-B7119 допускает установку десяти GPU-ускорителей

Компания TYAN представила сервер Thunder HX FT83-B7119, предназначенный для построения платформ высокопроизводительных вычислений (НРС). Стоечная система выполнена в формате 4U на основе материнской платы S7119GMRE с возможностью установки двух процессоров Intel Xeon Scalable второго поколения в исполнении LGA3647.

Для модулей оперативной памяти DDR4-2933 доступны 24 слота: максимально поддерживаемый объём ОЗУ составляет 3 Тбайт. Во фронтальной части находятся отсеки для 24 накопителей типоразмера 3,5/2,5 дюйма с интерфейсом SATA; допускается «горячая» замена.

Система может быть оборудованы десятью графическими акселераторами, выполненными в виде двухслотовых карт расширения PCIe 3.0 x16. Кроме того, предусмотрен дополнительный разъём PCIe 3.0 x16 для однослотовой карты расширения.

За сетевые подключения отвечают два порта 10GbE с пропускной способностью до 10 Гбит/с. Есть также дополнительный гигабитный порт управления. Подсистема питания содержит четыре блока с сертификацией 80 Plus Platinum.

На тыльную панель выведены два порта USB 3.0. Спереди расположены ещё два разъёма USB 3.0, а также последовательный порт и аналоговый коннектор D-Sub для подсоединения монитора. Сервер имеет размеры 830 × 438,4 × 176 мм. 

Постоянный URL: http://servernews.ru/1025579
13.11.2020 [22:27], Андрей Галадей

Разработчик из Red Hat раскритиковал подход Intel к открытым GPU-драйверам

Поддержка драйверов Intel для Linux улучшается, однако, похоже, там всё не так радужно. Один из участников проекта Mesa заявил, что модель разработки с совместным использованием кода — не всегда хорошая идея. Поводом стало желание Intel поделиться наработками в области GPU-драйверов для Linux, которые, как заявляет сама компания, имеют во многом общий код с Windows-драйверами.

Суть в том, что, по словам старшего инженера Red Hat Дэйва Эйрли (Dave Airlie), есть разница между проектами, которые открыли исходный код, и проектами, которые разрабатывались таковыми изначально. Первые могут формально иметь открытые исходники, однако по факту принадлежать одной или нескольким компаниям. Вторые — только сообществу. В пример он привёл проект LLVM, который является полностью открытым, поскольку он и был таковым с самого начала.

По словам Эйрли, проекты первого типа имеют фундаментальную проблему — если компания заинтересована в окупаемости инвестиций, то она просто размещает код в репозитории и открывает его, но не создают сообщество вокруг проекта. То есть, общественность по факту не участвует в разработке. Примером такого подхода является открытие кода графического драйвера для Vulkan от AMD. После этого Эйрли инициировал проект radv в рамках Mesa. И он, по словам разработчика, показал лучшие результаты.

Основное же неудовольствие связано с Intel Graphics Compiler (IGC), который является внутренним проектом корпорации. Отсутствие полноценного сообщества, информации о развитии и о том, как принять в нём участие, делают открытие кода сугубо формальным шагом. Ведь без сообщества и обратной связи проектом всё также будет «рулить» Intel. Специалист резюмировал, что такая политика со стороны компании усложняет поддержку драйверов в Linux и, фактически, фрагментирует экосистему.

Постоянный URL: http://servernews.ru/1025339
13.11.2020 [12:21], Сергей Карасёв

GPU-серверы GIGABYTE G482-Z53 и G482-Z54 допускают установку восьми акселераторов

Компания GIGABYTE Technology анонсировала стоечные серверы G482-Z53 и G482-Z54, предназначенные для осуществления высокопроизводительных вычислений с использованием графических ускорителей (GPGPU). Обе новинки выполнены в форм-факторе 4‎U на основе аппаратной платформы AMD. Новинки дополняют серию систем G482-Z5x, представленную год назад.

Серверы допускают установку двух процессоров EPYC 7002, каждый из которых может насчитывать до 64 вычислительных ядер (до 128 потоков инструкций). Задействована материнская плата MZ52-G40 с 32 слотами для модулей оперативной памяти DDR4-3200/2933 объёмом до 128 Гбайт каждый.

Новинки оснащены восемью слотами PCIe 4.0 x16 для графических акселераторов. Модель G482-Z53 дополнительно снабжена одним разъёмом PCIe 4.0 x16 для низкопрофильной карты расширения, а версия G482-Z54 — одним разъёмом для полноразмерной карты.

Серверы оборудованы двумя сетевыми портами Gigabit Ethernet на базе контроллера Intel I350-AM2 и вспомогательным сетевым портом управления: гнёзда для кабелей расположены во фронтальной части. Кроме того, на лицевую панель выведены два порта USB 3.0 и аналоговый интерфейс D-Sub.

Модель G482-Z53 располагает восемью отсеками для 2,5-дюймовых накопителей с интерфейсом SATA и возможностью «горячей» замены. Модификация G482-Z54 дополнительно получила два отсека для 2,5-дюймовых NVMe-устройств.

Серверы совместимы с различными программными платформами, включая Windows Server, Red Hat Enterprise Linux, SUSE Linux Enterprise Server и Ubuntu.

Постоянный URL: http://servernews.ru/1025279
12.11.2020 [16:57], Сергей Карасёв

GPU-сервер GIGABYTE G292-Z43 допускает установку 16 ускорителей

Компания GIGABYTE представила сервер G292-Z43, предназначенный для построения системы высокопроизводительных вычислений на основе GPU-ускорителей. Новинка выполнена в формате 2U на аппаратной платформе AMD с возможностью установки двух процессоров EPYC 7002 (до 64 вычислительных ядер у каждого чипа).

Сервер позволяет задействовать до 16 графических акселераторов с интерфейсом PCIe x16 в однослотовом исполнении. Кроме того, есть два разъёма PCIe x16 для дополнительных низкопрофильных карт половинной длины.

Система может быть оборудована 16 модулями оперативной памяти DDR4-3200 ёмкостью до 128 Гбайт каждый. Есть двухпортовый сетевой контроллер 10 Gigabit Ethernet и дополнительный сетевой порт управления.

Во фронтальной части сервера расположены отсеки для восьми 2,5-дюймовых накопителей с возможностью «горячей» замены. Можно установить четыре устройства с интерфейсом SATA/SAS и четыре устройства U.2.

Среди прочего стоит упомянуть два порта USB 3.0 и аналоговый разъём D-Sub для вывода изображения. Габариты составляют 448 × 87,5 × 800 мм.

Постоянный URL: http://servernews.ru/1025238
11.11.2020 [17:01], Игорь Осколков

H3C XG310, первый серверный GPU Intel, предназначен для облачного гейминга

Intel анонсировала дискретный графический ускоритель, ориентированный на серверное применение. Первая модель H3C XG310 выпущена в партнёрстве с китайским производителем и ориентирована на рынок облачных игр для Android. Среди первых партнёров, использующих новинку, значатся Gamestream, Tencent Games и Ubitus.

H3C XG310 включает сразу четыре GPU-чипа на базе архитектуры Xe-LP, ближайшего родственника дискретной графики Iris Xe Max, и 8 Гбайт памяти LPDDR4. Судя по всему, это и есть SG1, о котором стало известно в конце лета. Чуть укороченная однослотовая карта XG310 имеет полную высоту и интерфейс PCIe 3.0 x16, которые делится между отдельными GPU посредством набортного PCIe-коммутатора.

Две таких карты, как утверждается, способны обслуживать до 160 игроков одновременно (в зависимости от типа игры), с собственно рендерингом картинки и её кодированием на лету. Например, Tencent говорит о том, что им удаётся поддерживать 100 сессий в популярных играх King of Glory и Arena of Valor на сервере с двумя картами. А типовая конфигурация сервера может включать до четырёх ускорителей. Стоит отметить, что в данном случае приоритет отдан не столько качеству графики, сколько низкому уровню задержки.

Кроме того, новые ускорители можно использовать и просто для (де-)кодирования видеопотоков. Поддерживаются стандарты AVC, HEVC, MPEG2, VP9 и AV1. Программная составляющая включает Intel Media SDK, который вскоре вольётся в oneAPI VPL (Video Processing Library), а также готовые плагин для FFmpeg. Для 3D-графики предлагается использовать открытую библиотеку Mesa. Также Intel анонсировала новый проект Flipfast — стек, ориентированный на игры в среде Linux, который позволяет запускать в виртуальной машине графические приложения практически без потери производительности при работе с GPU.

В целом, Intel активно занимается развитием поддержки Linux, что пригодится в будущем при запуске «полноценных» GPU-ускорителей более высокого класса. В частности, компания переработала драйверы, унифицировав большую часть кода для Linux и Windows и подтянув производительность. Также Intel разрабатывает готовые наборы ПО для RHEL, SuSE и Ubuntu. Во многом новый программный стек опирается на oneAPI.

Постоянный URL: http://servernews.ru/1025140
11.11.2020 [13:10], SN Team

Сравнительное тестирование GPU-серверов с видеокартами NVIDIA RTX3000 в задачах AI/ML

Партнёрский материал

В начале сентября 2020 г. компания NVIDIA впервые представила графические карты семейства GeForce RTX 3000 на базе архитектуры RTX второго поколения — Ampere. NVIDIA нарушила свою традицию, когда новые поколения карт продавались дороже своих предшественников, а это значит, что стоимость тренировки модели оставалась примерно на одном уровне.

В этот раз NVIDIA установила стоимость новых и более популярных карт на уровне стоимости карт предыдущего поколения в момент начала их продаж. Для разработчиков ИИ-приложений это событие стало действительно важным — по сути, карты RTX 3000 открывают доступ к производительности, сравнимой с Titan RTX, но с гораздо более приятным ценником. Теперь у разработчиков data science появилась возможность тренировать модели быстрее без увеличения затрат.

Флагманские карты новой серии GeForce RTX 3090 получили 10 496 ядер NVIDIA CUDA с тактовой частотой 1,44 ГГц (ускорение до 1,71 ГГц), 328 тензорных ядер третьего поколения и 24 Гбайт 384-битной графической памяти GDDR6X. Еще более доступная по цене GeForce RTX 3080 обладает 8 704 ядрами CUDA с теми же тактовыми частотами, 272 тензорными ядрами и 10 Гбайт 320-битной памяти GDDR6X. Несмотря на дефицит новых видеокарт (NVIDIA даже была вынуждена приносить извинения рынку за образовавшуюся нехватку карт на старте продаж), уже в начале октября GPU-серверы появились в линейке продуктов у хостинг-провайдеров.

Нидерландский провайдер HOSTKEY одним из первых в Европе протестировал и представил GPU-серверы на базе новых карт GIGABYTE RTX3090/3080 TURBO. С 26 октября конфигурации на базе RTX 3090/Xeon E-2288G и RTX 3080/AMD Ryzen 9 3900X стали доступны всем клиентам HOSTKEY в дата-центрах в Нидерландах и Москве.

NVIDIA RTX 3000: золотая середина?

Карты RTX3090/3080 позиционируются производителем как более производительное решение на замену карт серии RTX 2000 с предыдущей архитектурой Turing. И, конечно, серверы с новыми картами значительно производительнее, чем доступные «народные» GPU-серверы на базе видеокарт GTX1080 (Ti), которые тоже пригодны для работы с нейросетями и прочими задачами машинного обучения (хотя и с оговорками), но при этом доступны по совсем уж «демократичным» ценам.

«Над» серией NVIDIA RTX 3000 располагаются все мощные решения на базе карт класса A100/A40 (Ampere) с тензорными ядрами третьего поколения числом до 432, Titan RTX/T4 (Turing) с тензорными ядрами второго поколения в количестве до 576, и V100 (Volta) с 640 тензорными ядрами первого поколения. Ценники на эти мощные карты, равно как и на аренду GPU-серверов с ними, значительно превышают предложения с RTX 3000, поэтому особенно интересно оценить на практике разрыв в производительности в задачах AI/ML.

Практические исследования

Face Reenactment

Одной из рабочих задач для оперативного тестирования GPU-серверов на основе новых карт RTX 3090 и RTX 3080 был выбран процесс Face Reenactment для нейросети U-Net+ResNet с пространственно-адаптивной нормализацией SPADE и patch-дискриминатором. В качестве фреймворка использовался Facebook PyTorch версии 1.6 со встроенным автоматическим режимом Automated mixed precision (AMP), а также режимом флага torch.backend.cudnn.benchmark = True.

Для сравнения этот же тест был запущен на GPU-сервере с картой GeForce GTX 1080 Ti, но уже без AMP, который только замедлил бы процесс, а также на машине с картой Titan RTX. Для чистоты эксперимента следует упомянуть, что в этом тестировании с картой Titan RTX использовалась система на процессоре Intel Core i9-10920X, в то время как остальные GPU-серверы со всеми остальными картами работали на Xeon E-2288G.

Безусловно, сравнение при классификации важно производить на одинаковых процессорах, поскольку именно они зачастую являются «бутылочным горлышком», ограничивающим производительность системы. Так что доля скептицизма в отношении погрешности результатов тестирования GPU в данном случае вполне уместна. Мы получили следующие результаты:

Минимальная разница между результатами RTX 3090 и Titan RTX выглядит особенно впечатляюще, если вспомнить об огромном ценовом разрыве между этими решениями. В следующем тестировании RTX 3090 заслуживает, как минимум, полноценного глубокого сравнения с GPU-сервером на базе одной и двух карт RTX 2080. Отставание RTX 3080 от RTX 3090 вполне объяснимо значительной разницей в объеме памяти — 10 Гбайт против 24 ГБ, на соответственное двух- и трехкратное отставание GTX 1080 Ti также наложила свой отпечаток разница в архитектурах.

Если же посмотреть на эти результаты с практической точки зрения, то есть в плане оценки финансовых расходов на обучение модели в случае аренды GPU-сервера, то чаша весов окончательно склоняется в пользу выбора системы с RTX 3090 — именно эта карта обеспечит наилучший использование бюджета как при недельном, так и при месячном тарифных планах.

Обучение GAN

Во второй тестовой задаче, которая заключалась в тренировке генеративно-состязательной нейронной сети (Generative Adversarial Network, GAN) с пакетом PyTorch, было интересно не только сравнить производительность карт различных поколений, но также отследить влияние состояния флага torch.backends.cudnn.benchmark на финальные результаты. При обучении GAN-архитектуры включение флага в положение True дает прирост производительности, но при этом может пострадать воспроизводимость результатов (Reproducibility).

Полученные результаты еще раз доказывают, что карта RTX 3090 с ее 24 Гбайт памяти GDDR6X представляет собой лучший выбор для решения тяжелых задач по обработке изображений. Как по производительности (выигрыш на 65% по сравнению с RTX 3080), так и по затратам на тренинг модели при аренде GPU-сервера в пересчёте на стоимость тренировки.

RTX 3080 значительно обошла по производительности GTX 1080 Ti, причём с любой установкой флага и несмотря на примерный паритет объема памяти. Однако следует помнить, что при обучении GAN-архитектуры включение флага torch.backends.cudnn.benchmark=True дает прирост производительности, но при этом может пострадать воспроизводимость результатов. причем,

Так что аренда более доступного GPU-сервера с картами GTX 1080 Ti при некоторых условиях может быть вполне разумным выбором — или, как минимум, сравнима по бюджету на тренинги моделей с RTX 3080. К сожалению, на прогон этой сетки через Titan RTX времени уже не оставалось, но с большой вероятностью картина в этом случае осталась бы аналогичной.

Обучение и инференс в vision-задачах

В следующей тестовой задаче по тренингу сетей в vision-задачах производительность видеокарт RTX 3090 и RTX 3080 сравнивалась с возможностями мощнейшего (и все еще очень дорогого) «ветерана» Tesla V100 с 16 Гбайт памяти HBM2.  Было протестировано пять классификационных моделей для обнаружения объектов со следующими тренинговыми установками: model forward + mean (no loss) + backward.

Тестовые задания запускались с применением последней версии фреймворка NVIDIA PyTorch (20.09-py3 от 24 октября). К сожалению, эта версия не собрана под архитектуру Ampere, поэтому для полноценной поддержки видеокарт RTX 3000 пришлось использовать PyTorch версии nightly build, а именно 1.8.0.dev20201017+cu110. У серии RTX 3000 также есть некоторые проблемы с torch.jit, но вопрос полностью снимается при сборке PyTorch под конкретную карту. Во всех тестах PyTorch использовался с автоматическим скриптом Mixed Precision, с включенным по умолчанию флагом torch.backend.cudnn.benchmark = True. 

Стоит упомянуть некоторые нюансы этого сравнения. В частности, была задействована не самая быстрая V100, которая работала внутри виртуальной машины. Из-за этого могли возникнуть некоторые потери, которые, вполне возможно, можно было бы оптимизировать при лучшей настройке. Помимо этого, в процессе тестирования не была задействована вся доступная VRAM, что позволило бы придать расчетам дополнительное ускорение.

Classification Training

Задача обучения сложных моделей нейросетей является профильным заданием для GPU-серверов на картах NVIDIA, позволяя порой на порядки сократить время тренировки алгоритмов глубокого обучения.

В условиях запуска задачи для получения результатов бенчмарка пересылка обнаружения объектов производилась без NMS, а пересылка для обучения не включала сопоставления целей. Иными словами, на практике скорость обучения с большой вероятностью замедлится на 10-20%, а скорость вывода снизится примерно на 20-30%.

Classification Inference

В данном случае инференс — это процесс получения предсказаний посредством прогона изображений через заранее обученную нейронную сеть, который вполне подходит для развертывания на удаленном GPU-сервере.

В целом можно говорить о том, что в заданиях тренировки и инференса сетей в Vision-задачах карта RTX 3090 медленнее Tesla V100 в среднем всего на 15-20%, и это очень впечатляюще — особенно с учетом разницы в цене.

Показателен и тот факт, что отставание RTX 3080 от RTX 3090 относительно невелико — по крайней мере, значительно меньше, чем при выполнении других задач. На практике это означает, что даже со сравнительно небольшим бюджетом, выделенным на аренду GPU-сервера на базе RTX 3080, можно добиться достаточно высокой производительности лишь с небольшим увеличением затрат времени на обработку данных.

Detection Training

Тестирование RetinNet c ResNet50FPN для обнаружения объектов производилось с указанными выше параметрами PyTorch (20.09-py3 от 24 октября), с флагом torch.backend.cudnn.benchmark=True и с тренинговыми установками model forward + mean (no loss) + backward.

Detection Inference

Здесь отставание карт серии RTX30 уже минимально, что говорит о несомненных преимуществах новой архитектуры Ampere для решения подобных задач. Карта RTX 3090 показала себя просто великолепно.

Сравнительно небольшое отставание бюджетной карты говорит о том, что благодаря отличному соотношению цена/возможности RTX 3080 может стать желанным выбором для решения задач прототипирования с экономичным бюджетом. По завершению создания прототипа модель можно масштабировать, развернув, например, на GPU-серверах с картами RTX 3090.

Заключение

По итогам тестирования новых графических решений семейства GeForce RTX 3000 можно с уверенностью утверждать, что компания NVIDIA блестяще справилась с задачей выпуска доступных видеокарт с тензорными ядрами, достаточно производительными для быстрых ИИ-вычислений. В некоторых задачах обучения сетей, таких как работа с разреженными сетями (Sparse network), преимущества архитектуры Ampere над поколением RTX20 позволяют добиться ускорения процесса в два раза.

Преимущества использования GPU-серверов с картами GeForce RTX 3090 особенно очевидны в задачах, где обучение моделей связано с повышенными требованиями к объему памяти — при анализе медицинских снимков, современном моделировании компьютерного зрения и везде, где есть необходимость обработки очень крупных изображений — например, при работе с GAN-архитектурами.

В то же время RTX 3080 с ее 10 Гбайт графической памяти вполне подойдет для работы с задачами глубокого машинного обучения, поскольку для изучения основ большинства архитектур вполне достаточно уменьшить размер сетей или использовать на входе изображения меньшего размера, а затем при необходимости масштабировать модель до необходимых параметров на более мощных GPU-серверах.

С учетом того, что память HBM, применяемая в картах класса A100, вряд ли существенно подешевеет в ближайшее время, можно сказать, что карты RTX 3090 / RTX 3080 являются вполне эффективной инвестицией на несколько ближайших лет.

Нидерландский хостинг-провайдер HOSTKEY предлагает широкий ассортимент GPU-серверов в дата-центрах в Нидерландах и в Москве на основе как GPU последнего поколения RTX3080 и RTX3090, так и на основе карт предыдущих поколений RTX2080Ti и GTX1080Ti/1080. Компания предлагает как готовые к работе серверы, так и серверы с индивидуальными конфигурациями, которые идеально отвечают потребностям заказчика. Компания благодарит Эмиля Закирова и Александра Широносова за помощь в проведении тестов.

Постоянный URL: http://servernews.ru/1025021
Система Orphus