Материалы по тегу: rtx

14.09.2022 [15:03], Сергей Карасёв

Axiomtek представила индустриальный компьютер IPC972 с поддержкой двух ускорителей GeForce RTX 3090

Компания Axiomtek анонсировала компьютер IPC972, спроектированный с прицелом на периферийные вычисления (edge). Система может применяться для аналитики данных, глубокого обучения, обработки изображений, ИИ-приложений, автоматизации различных процессов и выполнения других задач в промышленной и коммерческой сферах. Изюминкой новинки является возможность установки сразу двух полноразмерных ускорителей NVIDIA GeForce RTX 3090.

Устройство заключено в корпус с габаритами 255 × 192 × 360 мм. Задействована материнская плата на наборе логики Intel W480E, допускающая установку процессоров Intel Xeon или Core i7/i5/i3 10-го поколения (Comet Lake-S) с показателем TDP до 80 Вт. Поддерживается до 128 Гбайт оперативной памяти DDR4-2933 ECC в виде четырёх модулей U-DIMM.

 Источник изображений: Axiomtek

Источник изображений: Axiomtek

За возможности расширения отвечают слоты PCIe x4, PCIe x8, PCIe x16 (×2), PCI Express Mini (с разъёмом для SIM-карты), а также коннекторы M.2 Key E 2234 и M.2 Key B 3042/3050 (есть SIM-слот). Компьютер может быть оборудован двумя SFF-накопителями толщиной до 9,5 мм, одним накопителем толщиной до 15 мм и твердотельным модулем M.2 2280 NVMe. Заявлена поддержка RAID 0/1/5.

В арсенале новинки — сетевые адаптеры 2.5GbE (Intel I225-LM) и 1GbE (Intel I219-LM), шесть портов USB 3.2 Gen2 и два порта USB 3.2 Gen1, аудиогнездо на 3,5 мм. Возможна установка различных IO-модулей, в том числе с портами RS-232/422/485, 1GbE или USB 2.0/3.0. Диапазон рабочих температур — от -10 до +60 °C. Поддерживается работа с операционными системами Windows 10 и Linux.

Постоянный URL: http://servernews.ru/1074182
29.09.2021 [16:55], Владимир Мироненко

Сравнение производительности и стоимости GPU-серверов с видеокартами NVIDIA серий RTX и GTX разных поколений

На смену устаревшей серии GTX10 и дефицитной RTX30 пришли наследницы серии Quadro — GPU NVIDIA RTX A4000 и А5000 на базе текущей архитектуры Ampere, которые были анонсированы в апреле 2021 года. Инженеры HOSTKEY сравнили эффективность использования новых ускорителей в GPU-серверах на различных типах нагрузок.

Ampere использует 8-нм техпроцесс от Samsung и поддерживает высокоскоростную память HBM2 и GDDR6(X). GDDR6X является шестым поколением памяти DDR SDRAM и может достигать скорости до 21 Гбит/с. В А5000 и А4000 NVIDIA использует ядра RT 2-го поколения и тензорные ядра 3-го поколения, позволяющие обеспечить двукратный прирост производительности по сравнению со старыми ядрами Turing. Новинки используют стандарт PCIe 4.0, что позволяет убрать узкие места при обмене данными с GPU.

В Ampere используется новая версия CUDA 8+. На чипе теперь есть два потоковых мультипроцессора, что обеспечивает значительный рост производительности FP32-вычислений по сравнению с картами на базе Turing. Старшие GPU A5000 и выше поддерживают NVLink 3.0 для попарного объединения карт, что это приводит к кратному увеличению производительности.

Технические характеристики видеокарт NVIDIA RTX A4000 и RTX A5000, RTX 3090, Quadro RTX 4000

На новых картах куда больше памяти, это позволяет эффективно работать с нейросетями и изображениями. Другим существенным отличием RTX A4000 и RTX A5000 является аппаратное ускорение размытия движения, позволяющее значительно сократить время и затраты на при рендеринге.

NVIDIA Quadro RTX 4000 GTX 1080 TI RTX A4000 RTX A5000 RTX 3090
Архитектура Turing Pascal Ampere Ampere Ampere
Техпроцесс, нм 12 16 8 8 8
Графический процессор TU104 GP102 GA102 GA104 GA102
Количество транзисторов, млрд шт. 11,8 13,6 17,4 28,3 28,3
Пропускная способность памяти, Гбайт/с 416 484 448 768 936,2
Разрядность шины памяти, бит 256 352 256 384 384
Тип памяти GDDR6 GDDR5X GDDR6 GDDR6 GDDR6X
Объём памяти, Гбайт 8 11 16 24 24
ECC-память нет нет да да нет
Ядра CUDA, шт. 2304 3584 6144 8192 10496
Тензорные ядра, шт. 288 нет 192 256 328
Ядра RT, шт. 36 нет 48 64 82
FP32, Тфлопс 7,1 11,34 19,2 27,8 35,6
RT, Тфлопс Н/Д нет 37,4 54,2 69,5
Tensor, Тфлопс 57 нет 153,4 222,2 285
Макс. мощность, Вт 160 Вт 250 Вт 140 Вт 230 Вт 350 Вт
Интерфейс PCIe 3.0 x16 PCIe 3.0 x16 PCIe 4.0 x16 PCIe 4.0 x16 PCIe 4.0 x16
Форм-фактор 1 слот 2 слота 1 слот 2 слота 2-3 слота
Поддержка vGPU нет нет нет полная ограниченная
NVLink нет нет нет 2×GPU 2×GPU
Версия CUDA 7.5 6.1 8.6 8.6 8.6
Поддержка VULKAN есть есть есть есть есть
Цена (руб.) 115 000 66 000 125 000 190 000 215 000

В старших картах от RTX A5000 есть поддержка vGPU и NVIDIA RTX vWS, что позволяет обеспечить совместное использование вычислительных ресурсов и виртуальных GPU несколькими пользователями. В среднем новые видеокарты NVIDIA обгоняют по производительности старую линейку Quadro в 1,5–2 раза и потребляют меньше электричества.

Тестирование HOSTKEY

Инженеры компании HOSTKEY провели собственное тестирование профессиональных видеокарт NVIDIA RTX A5000 и A4000 и сравнили их с RTX 3090 и Quadro RTX 4000 — представителем предыдущего поколения профессиональных видеокарт компании NVIDIA. Для тестов использовалась система следующей конфигурации:

  • Процессор OctaCore Intel Xeon E-2288G, 3,5 ГГц
  • 32 Гбайт DDR4-3200 ECC DDR4 SDRAM 1600 МГц
  • Samsung SSD 980 PRO 1Tбайт (1000 GB, PCI-E 4.0 x4)
  • Серверная материнская плата ASUS P11C-I Series (1 PCI-E x16, 1 M.2, 2 DDR4 DIMM, 2x Gigabit LAN + IPMI)
  • Microsoft Windows 10 Professional 64-бит.

Tест V-Ray GPU RT

 Tест V-Ray GPU RTX

Тест V-Ray GPU CUDA

Тесты V-Ray GPU CUDA и RTX позволяют измерить относительную производительность GPU при рендеринге. GPU RTX A4000 и RTX A5000 значительно превосходят по производительности Quadro RTX 4000 и GeForce GTX 1080 Ti (тест V-Ray GPU RTX на этой карте провести невозможно, т.к. она не поддерживает технологию RTX), но уступают RTX 3090, что объясняется высокой пропускной способностью памяти (936,2 Гбайт/с против 768 Гбайт/с у RTX A5000) и количеством потоковых процессоров (10496 против 8192 у RTX A5000).

«Собаки против кошек»

Для сравнения производительности GPU для нейросетей был использован набор данных «Собаки против кошек» — тест анализирует содержимое фотографии и различает изображена на фото кошка или собака. Все необходимые исходные данные находятся здесь. Также этот тест был выполнен на разных GPU в различных облачных сервисах. Получены следующие результаты:

 Полный цикл обучения

Полный цикл обучения

Полный цикл обучения тесовой нейросети занял от 5 до 30 мин. Результат NVIDIA RTX A5000 и A4000 составил 07:30 и 9:10 минут соответственно. Быстрее единичных NVIDIA RTX A5000 и A4000 работал только GPU-сервер с восемью картами GeForce RTX 2080Ti и с энергопотреблением около 2 кВт·ч. Видеокарты Tesla V100 прошлого поколения доступны в сервисах Google Cloud Compute Engine, Microsoft Azure и Amazon Web Services и показали наилучший результат из протестированных там карт.

Сколько стоит обучить нейросеть в разных местах?

На графике представлена стоимость обучения модели с использованием различных сервисов для следующих конфигураций:

  • AWS — AWS p3.2xlarge
  • Google Cloud — GCP Compute Engine
  • Microsoft Azure — Tesla V100
  • HOSTKEY — RTX А4000, RTX A5000

Заключение

Новые профессиональные видеокарты NVIDIA RTX A5000 и A4000 являются оптимальным решением для использования в GPU-серверах и позволяют выполнять сложные вычисления, производя быструю обработку больших массивов данных. Переход на новую архитектуру Ampere позволил значительно увеличить производительность новых профессиональных видеокарт NVIDIA. Улучшенные тензорные ядра и ядра RT значительно улучшают качество и возможности трассировки лучей в реальном времени.

Объем памяти в 16 Гбайт у NVIDIA RTX A4000 и 24 Гбайт у RTX A5000 позволяет обрабатывать большие массивы данных, а мост NVLink для A5000 объединяет две карты в одну, что даёт доступ уже к 48 Гбайт высокопроизводительной памяти. Что важно, лицензия на драйверы NVIDIA для профессиональных GPU (в отличие от игровых видеокарт) никак не ограничивает их использование в центрах обработки данных.

HOSTKEY рекомендует использовать современные выделенные и виртуальные GPU-серверы для рендеринга, транскодинга видео, обучения нейросетей и обработки данных уже обученными сетями. Если есть стабильный большой объем данных для обработки, аренда выделенных GPU-серверов может на порядок повысить скорость их обработки за те же деньги или позволит существенно сократить затраты на формирование собственной инфраструктуры.

Пока что HOSTKEY предоставляет GPU-серверы на базе помесячной оплаты, но в ближайшее время все эти машины будут доступны и в режиме почасовой оплаты с полной автоматизацией их предоставления клиенту при заказе через API. Кроме того, новые серверы с профессиональными картами RTX A5000 и A4000 доступны теперь не только в Нидерландах, но и в Москве.

HOSTKEY — динамично развивающийся хостинг-провайдер, который более 10 лет оказывает услуги по размещению и аренде серверов, проектированию и внедрению частных облаков, лизингу и обслуживанию оборудования. HOSTKEY предоставляет серверы в аренду в дата-центрах категории TIER III в Европе, США и России, а также оказывает услуги проектирования, запуска и поддержки приватных облаков, поддержки серверов в любых дата-центрах в Нидерландах. Компания работает как с корпоративными клиентами, так и с частными лицами.

Постоянный URL: http://servernews.ru/1050024
11.11.2020 [13:10], SN Team

Сравнительное тестирование GPU-серверов с видеокартами NVIDIA RTX3000 в задачах AI/ML

Партнёрский материал

В начале сентября 2020 г. компания NVIDIA впервые представила графические карты семейства GeForce RTX 3000 на базе архитектуры RTX второго поколения — Ampere. NVIDIA нарушила свою традицию, когда новые поколения карт продавались дороже своих предшественников, а это значит, что стоимость тренировки модели оставалась примерно на одном уровне.

В этот раз NVIDIA установила стоимость новых и более популярных карт на уровне стоимости карт предыдущего поколения в момент начала их продаж. Для разработчиков ИИ-приложений это событие стало действительно важным — по сути, карты RTX 3000 открывают доступ к производительности, сравнимой с Titan RTX, но с гораздо более приятным ценником. Теперь у разработчиков data science появилась возможность тренировать модели быстрее без увеличения затрат.

Флагманские карты новой серии GeForce RTX 3090 получили 10 496 ядер NVIDIA CUDA с тактовой частотой 1,44 ГГц (ускорение до 1,71 ГГц), 328 тензорных ядер третьего поколения и 24 Гбайт 384-битной графической памяти GDDR6X. Еще более доступная по цене GeForce RTX 3080 обладает 8 704 ядрами CUDA с теми же тактовыми частотами, 272 тензорными ядрами и 10 Гбайт 320-битной памяти GDDR6X. Несмотря на дефицит новых видеокарт (NVIDIA даже была вынуждена приносить извинения рынку за образовавшуюся нехватку карт на старте продаж), уже в начале октября GPU-серверы появились в линейке продуктов у хостинг-провайдеров.

Нидерландский провайдер HOSTKEY одним из первых в Европе протестировал и представил GPU-серверы на базе новых карт GIGABYTE RTX3090/3080 TURBO. С 26 октября конфигурации на базе RTX 3090/Xeon E-2288G и RTX 3080/AMD Ryzen 9 3900X стали доступны всем клиентам HOSTKEY в дата-центрах в Нидерландах и Москве.

NVIDIA RTX 3000: золотая середина?

Карты RTX3090/3080 позиционируются производителем как более производительное решение на замену карт серии RTX 2000 с предыдущей архитектурой Turing. И, конечно, серверы с новыми картами значительно производительнее, чем доступные «народные» GPU-серверы на базе видеокарт GTX1080 (Ti), которые тоже пригодны для работы с нейросетями и прочими задачами машинного обучения (хотя и с оговорками), но при этом доступны по совсем уж «демократичным» ценам.

«Над» серией NVIDIA RTX 3000 располагаются все мощные решения на базе карт класса A100/A40 (Ampere) с тензорными ядрами третьего поколения числом до 432, Titan RTX/T4 (Turing) с тензорными ядрами второго поколения в количестве до 576, и V100 (Volta) с 640 тензорными ядрами первого поколения. Ценники на эти мощные карты, равно как и на аренду GPU-серверов с ними, значительно превышают предложения с RTX 3000, поэтому особенно интересно оценить на практике разрыв в производительности в задачах AI/ML.

Практические исследования

Face Reenactment

Одной из рабочих задач для оперативного тестирования GPU-серверов на основе новых карт RTX 3090 и RTX 3080 был выбран процесс Face Reenactment для нейросети U-Net+ResNet с пространственно-адаптивной нормализацией SPADE и patch-дискриминатором. В качестве фреймворка использовался Facebook* PyTorch версии 1.6 со встроенным автоматическим режимом Automated mixed precision (AMP), а также режимом флага torch.backend.cudnn.benchmark = True.

Для сравнения этот же тест был запущен на GPU-сервере с картой GeForce GTX 1080 Ti, но уже без AMP, который только замедлил бы процесс, а также на машине с картой Titan RTX. Для чистоты эксперимента следует упомянуть, что в этом тестировании с картой Titan RTX использовалась система на процессоре Intel Core i9-10920X, в то время как остальные GPU-серверы со всеми остальными картами работали на Xeon E-2288G.

Безусловно, сравнение при классификации важно производить на одинаковых процессорах, поскольку именно они зачастую являются «бутылочным горлышком», ограничивающим производительность системы. Так что доля скептицизма в отношении погрешности результатов тестирования GPU в данном случае вполне уместна. Мы получили следующие результаты:

Минимальная разница между результатами RTX 3090 и Titan RTX выглядит особенно впечатляюще, если вспомнить об огромном ценовом разрыве между этими решениями. В следующем тестировании RTX 3090 заслуживает, как минимум, полноценного глубокого сравнения с GPU-сервером на базе одной и двух карт RTX 2080. Отставание RTX 3080 от RTX 3090 вполне объяснимо значительной разницей в объеме памяти — 10 Гбайт против 24 ГБ, на соответственное двух- и трехкратное отставание GTX 1080 Ti также наложила свой отпечаток разница в архитектурах.

Если же посмотреть на эти результаты с практической точки зрения, то есть в плане оценки финансовых расходов на обучение модели в случае аренды GPU-сервера, то чаша весов окончательно склоняется в пользу выбора системы с RTX 3090 — именно эта карта обеспечит наилучший использование бюджета как при недельном, так и при месячном тарифных планах.

Обучение GAN

Во второй тестовой задаче, которая заключалась в тренировке генеративно-состязательной нейронной сети (Generative Adversarial Network, GAN) с пакетом PyTorch, было интересно не только сравнить производительность карт различных поколений, но также отследить влияние состояния флага torch.backends.cudnn.benchmark на финальные результаты. При обучении GAN-архитектуры включение флага в положение True дает прирост производительности, но при этом может пострадать воспроизводимость результатов (Reproducibility).

Полученные результаты еще раз доказывают, что карта RTX 3090 с ее 24 Гбайт памяти GDDR6X представляет собой лучший выбор для решения тяжелых задач по обработке изображений. Как по производительности (выигрыш на 65% по сравнению с RTX 3080), так и по затратам на тренинг модели при аренде GPU-сервера в пересчёте на стоимость тренировки.

RTX 3080 значительно обошла по производительности GTX 1080 Ti, причём с любой установкой флага и несмотря на примерный паритет объема памяти. Однако следует помнить, что при обучении GAN-архитектуры включение флага torch.backends.cudnn.benchmark=True дает прирост производительности, но при этом может пострадать воспроизводимость результатов. причем,

Так что аренда более доступного GPU-сервера с картами GTX 1080 Ti при некоторых условиях может быть вполне разумным выбором — или, как минимум, сравнима по бюджету на тренинги моделей с RTX 3080. К сожалению, на прогон этой сетки через Titan RTX времени уже не оставалось, но с большой вероятностью картина в этом случае осталась бы аналогичной.

Обучение и инференс в vision-задачах

В следующей тестовой задаче по тренингу сетей в vision-задачах производительность видеокарт RTX 3090 и RTX 3080 сравнивалась с возможностями мощнейшего (и все еще очень дорогого) «ветерана» Tesla V100 с 16 Гбайт памяти HBM2. Было протестировано пять классификационных моделей для обнаружения объектов со следующими тренинговыми установками: model forward + mean (no loss) + backward.

Тестовые задания запускались с применением последней версии фреймворка NVIDIA PyTorch (20.09-py3 от 24 октября). К сожалению, эта версия не собрана под архитектуру Ampere, поэтому для полноценной поддержки видеокарт RTX 3000 пришлось использовать PyTorch версии nightly build, а именно 1.8.0.dev20201017+cu110. У серии RTX 3000 также есть некоторые проблемы с torch.jit, но вопрос полностью снимается при сборке PyTorch под конкретную карту. Во всех тестах PyTorch использовался с автоматическим скриптом Mixed Precision, с включенным по умолчанию флагом torch.backend.cudnn.benchmark = True.

Стоит упомянуть некоторые нюансы этого сравнения. В частности, была задействована не самая быстрая V100, которая работала внутри виртуальной машины. Из-за этого могли возникнуть некоторые потери, которые, вполне возможно, можно было бы оптимизировать при лучшей настройке. Помимо этого, в процессе тестирования не была задействована вся доступная VRAM, что позволило бы придать расчетам дополнительное ускорение.

Classification Training

Задача обучения сложных моделей нейросетей является профильным заданием для GPU-серверов на картах NVIDIA, позволяя порой на порядки сократить время тренировки алгоритмов глубокого обучения.

В условиях запуска задачи для получения результатов бенчмарка пересылка обнаружения объектов производилась без NMS, а пересылка для обучения не включала сопоставления целей. Иными словами, на практике скорость обучения с большой вероятностью замедлится на 10-20%, а скорость вывода снизится примерно на 20-30%.

Classification Inference

В данном случае инференс — это процесс получения предсказаний посредством прогона изображений через заранее обученную нейронную сеть, который вполне подходит для развертывания на удаленном GPU-сервере.

В целом можно говорить о том, что в заданиях тренировки и инференса сетей в Vision-задачах карта RTX 3090 медленнее Tesla V100 в среднем всего на 15-20%, и это очень впечатляюще — особенно с учетом разницы в цене.

Показателен и тот факт, что отставание RTX 3080 от RTX 3090 относительно невелико — по крайней мере, значительно меньше, чем при выполнении других задач. На практике это означает, что даже со сравнительно небольшим бюджетом, выделенным на аренду GPU-сервера на базе RTX 3080, можно добиться достаточно высокой производительности лишь с небольшим увеличением затрат времени на обработку данных.

Detection Training

Тестирование RetinNet c ResNet50FPN для обнаружения объектов производилось с указанными выше параметрами PyTorch (20.09-py3 от 24 октября), с флагом torch.backend.cudnn.benchmark=True и с тренинговыми установками model forward + mean (no loss) + backward.

Detection Inference

Здесь отставание карт серии RTX30 уже минимально, что говорит о несомненных преимуществах новой архитектуры Ampere для решения подобных задач. Карта RTX 3090 показала себя просто великолепно.

Сравнительно небольшое отставание бюджетной карты говорит о том, что благодаря отличному соотношению цена/возможности RTX 3080 может стать желанным выбором для решения задач прототипирования с экономичным бюджетом. По завершению создания прототипа модель можно масштабировать, развернув, например, на GPU-серверах с картами RTX 3090.

Заключение

По итогам тестирования новых графических решений семейства GeForce RTX 3000 можно с уверенностью утверждать, что компания NVIDIA блестяще справилась с задачей выпуска доступных видеокарт с тензорными ядрами, достаточно производительными для быстрых ИИ-вычислений. В некоторых задачах обучения сетей, таких как работа с разреженными сетями (Sparse network), преимущества архитектуры Ampere над поколением RTX20 позволяют добиться ускорения процесса в два раза.

Преимущества использования GPU-серверов с картами GeForce RTX 3090 особенно очевидны в задачах, где обучение моделей связано с повышенными требованиями к объему памяти — при анализе медицинских снимков, современном моделировании компьютерного зрения и везде, где есть необходимость обработки очень крупных изображений — например, при работе с GAN-архитектурами.

В то же время RTX 3080 с ее 10 Гбайт графической памяти вполне подойдет для работы с задачами глубокого машинного обучения, поскольку для изучения основ большинства архитектур вполне достаточно уменьшить размер сетей или использовать на входе изображения меньшего размера, а затем при необходимости масштабировать модель до необходимых параметров на более мощных GPU-серверах.

С учетом того, что память HBM, применяемая в картах класса A100, вряд ли существенно подешевеет в ближайшее время, можно сказать, что карты RTX 3090 / RTX 3080 являются вполне эффективной инвестицией на несколько ближайших лет.

Нидерландский хостинг-провайдер HOSTKEY предлагает широкий ассортимент GPU-серверов в дата-центрах в Нидерландах и в Москве на основе как GPU последнего поколения RTX3080 и RTX3090, так и на основе карт предыдущих поколений RTX2080Ti и GTX1080Ti/1080. Компания предлагает как готовые к работе серверы, так и серверы с индивидуальными конфигурациями, которые идеально отвечают потребностям заказчика. Компания благодарит Эмиля Закирова и Александра Широносова за помощь в проведении тестов.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Постоянный URL: http://servernews.ru/1025021
25.06.2020 [14:17], Юрий Поздеев

SmartX Optane DIMM DAX: быстрая гиперконвергентная система на Intel Optane

Китайский производитель гиперконвергентных решений SmartX выпустил решение Halo P, использующее для кеширования Optane PMem, что позволяет выдать 1,2 миллиона IOPS с задержкой не более 100 мкс и пропускную способность до 25 Гбайт/с. Стенд для демонстрации решения был построен на основе трехузловой системы Lenovo и с использованием накопителей NVMe.

Каким образом SmartX удалось снизить задержку доступа до такой малой величины? Ответ простой — использование собственной ОС SMTX и модулей Optane DCPMM в режиме App Direct (DAX).

Это решение позволяет сохранять данные любого узла в кеше из модулей памяти Optane, при этом на другие узлы данные так же реплицируются с использованием протокола RDMA, который уменьшает задержку до подтверждения записи данных. Далее данные из кеша записываются на твердотельные накопители и хранятся там, пока снова не потребуются.

OC SMTX использует 64-байтовое выравнивание для журнала блоков, вместо 4 Кбайт (для SSD), таким образом решается проблема с лишними операциями записи (когда не набирается блок в 4 Кбайта). Кроме этого, виртуализованное хранилище передается в программный стек ВМ через отдельный протокол SMTX ELF, что позволяет избежать снижения производительности, вызванного запросами ввода-вывода от виртуальных машин.

Память системы хранения и виртуальной машины разделяется, чтобы избежать репликации памяти и замедления операций ввода-вывода. RDMA over Converged Ethernet (RoCE) используется для ускорения сетевых запросов ввода-вывода через сетевые карты (работа с разными узлами хранилища).

SmartX заявляет, что это самое быстрое в мире решение с гиперконвергентной системой. SmartX позиционирует свое решение HaloP для работы с базами данных OLTP и машинного обучения.

Постоянный URL: http://servernews.ru/1014194
23.01.2020 [18:49], Сергей Карасёв

PNY выпустила ЦОД-версии Quadro RTX с пассивным охлаждением

Компания PNY Technologies анонсировала новые версии ускорителей NVIDIA Quadro RTX 8000 и Quadro RTX 6000, предназначенные для использования в центрах обработки данных.

Особенность новинок PNY в том, что они наделены пассивной системой охлаждения. Отмечается, что эти карты подходят для использования в существующих (или будущих) серверных шасси, рассчитанных на полноразмерные двухслотовые ускорители NVIDIA Tesla.

Решения Quadro RTX 8000 и Quadro RTX 6000 на архитектуре Turing были представлены компанией NVIDIA ещё в 2018 году. Подробно об этих изделиях можно узнать в нашем материале. Напомним, что первый из названных ускорителей располагает 48 Гбайт памяти GDDR6, а второй — 24 Гбайт. При этом оба содержат 4608 ядер CUDA, 576 тензорных ядер и 72 RT-ядра.

Замена профильных изделий Tesla на карты Quadro RTX 8000 и Quadro RTX 6000 может оказаться выгодной с точки зрения соотношения цены и производительности. При этом применение пассивного охлаждения позволит устанавливать ускорители в те корпуса, для которых не подходят карты с активным кулером. Отметим, что ранее появилась информация о ЦОД-варианте NVIDIA GeForce RTX 2080 Ti с пассивным охлаждением.

Постоянный URL: http://servernews.ru/1002118
04.09.2019 [17:30], Андрей Созинов

IFA 2019: NVIDIA представила мобильную Quadro RTX 6000 — самую мощную профессиональную видеокарту для ноутбуков

Компания NVIDIA представила новый ускоритель серии Quadro RTX – мобильную версию Quadro RTX 6000. Новинка является, пожалуй, самой производительной профессиональной видеокартой в мобильном сегменте.

К сожалению, компания NVIDIA не стала раскрывать полный список характеристик новинки. Известно лишь, что мобильная Quadro RTX 6000 обладает 24 Гбайт видеопамяти GDDR6.

Столько же имеет и настольная версия данной видеокарты, которая также обладает 4608 ядрами CUDA, 576 тензорными ядрами и 72 RT-ядрами.

Скорее всего, мобильная RTX 6000 будет отличаться лишь более низкими таковыми частотами и сохранит конфигурацию ядер. Однако наверняка это будет известно несколько позже.

Также NVIDIA представила эталонную систему с новой профессиональной видеокартой, которая называется Ace Reference Design.

Эта мобильная рабочая станция обладает продвинутой системой охлаждения с ультратонкими титановыми испарительными камерами, поддерживает NVIDIA Optimus, комплектуется тонким и компактным блоком питания мощностью 300 Вт, а также профессиональным дисплеем с разрешением 4K, частотой 120 Гц, и 100 % охватом цветового пространства Adobe RGB.

На основе данной эталонной системы был создан ASUS ProArt StudioBook One, с которым мы уже подробно познакомились сегодня в рамках IFA 2019. Кроме того, сертификацию RTX Studio теперь имеют ещё 12 устройств. Среди них, например, ноутбуки Acer ConceptD 7 Pro и ConceptD 9 Pro, также продемонстрированные на IFA 2019.

NVIDIA заявляет, что мобильная версия Quadro RTX 6000 устраняет существенный разрыв в производительности, который в настоящее время существует между мобильной Quadro RTX 5000 и настольной Quadro RTX 6000. Отставание должно составить примерно 10 % при обработке графики, редактировании видео, рендеринге и в задачах, связанных с Искусственным интеллектом.

NVIDIA также упоминает о поддержке трассировки лучей в реальном времени в более чем 40 профессиональных приложениях, включая Adobe Photoshop Lightroom, Autodesk Arnold, Blender, Renderman и другие.

Постоянный URL: http://servernews.ru/991999
04.05.2019 [11:00], Андрей Созинов

NVIDIA готовит мобильное семейство профессиональных видеокарт Quadro на базе Turing

Компания NVIDIA готовит мобильную серию профессиональных видеокарт Quadro на базе графических процессоров Turing. Новинки упоминаются во внутренней документации компании Dell, которая «утекла» в Сеть стараниями ресурса Tweakers, который не так давно раскрыл информацию о будущем процессоров Intel.

К сожалению, конкретные модели видеокарт, компания Dell в своих документах не уточняет, а лишь указывает уровень ускорителя. Так, наиболее продвинутые комплектации ноутбуков Precision 7540 и Precision 7740 получат некие видеокарты Quadro RTX с наиболее высоким уровнем производительности. Причём, это могут быть две разные модели, относящиеся к верхнему сегменту.

На такое предположение наталкивают альтернативные GPU для этих ноутбуков. Так, более крупный 17-дюймовый Precision 7740 будет также предлагаться с мобильной версией Radeon Pro WX 7100, которая является аналогом Radeon RX 580. В свою очередь 15-дюймовый Precision 7540 сможет предложить Radeon Pro WX4150 — аналог Radeon RX 460. Соответственно, в первом случае может быть использован ускоритель Quadro RTX на базе более мощного Turing TU104, а во втором — на Turing TU106.

Ещё одним ноутбуком с некой новой Quadro станет Precision 5540. Тут также не уточняется модель видеокарты, а лишь указано что это будет некая «новая Quadro среднего уровня». Отсутствие в названии «RTX» может указывать на то, что эта видеокарта будет построена на Turing TU116 и не сможет предложить аппаратное ускорение трассировки лучей. Тем не менее, она также должна обеспечить весьма неплохой уровень производительности.

Напомним, что младшей настольной Quadro RTX на данный момент является модель Quadro RTX 4000 на базе графического процессора TU104 с 2304 ядрами CUDA и 8 Гбайт памяти GDDR6. Следом за ней идёт уже Quadro RTX 5000 на базе Turing TU102. Поэтому, скорее всего, в мобильном сегменте флагманом станет как раз Quadro RTX 4000, а не более старшая модель, так как графический процессор TU102 может быть слишком мощным даже для мобильных рабочих станций. А вот менее производительные профессиональные видеокарты в мобильном сегменте явно появятся.

Постоянный URL: http://servernews.ru/986932
Система Orphus