Материалы по тегу: nvidia pascal

06.02.2017 [18:00], Иван Грудцын

NVIDIA анонсировала Quadro GP100 и младшие ускорители на чипах Pascal

До сих пор единственными профессиональными ускорителями NVIDIA Pascal для рабочих станций были модели верхнего ценового сегмента Quadro P6000 и P5000. И вот, наконец, калифорнийский разработчик решил отправить карты семейств Kepler и Maxwell на покой, предложив им альтернативу в виде пяти адаптеров Quadro — от P4000 на чипе GP104 до P400 на GP107. Параллельно дебютировал новый флагман — Quadro GP100 на одноимённом ядре. С него, пожалуй, и начнём.

Модель GP100 позиционируется как альтернатива Quadro P6000 для тех, кому необходима высокая производительность при операциях с числами двойной точности (FP64) — около 5 Тфлопс. Новинка имеет меньший объём памяти, чем P6000, но, с другой стороны, пропускная способность микросхем HBM2 выше, чем у GDDR5X. Она достигает 716,8 Гбайт/с при эффективной частоте памяти в 1400 МГц. Карта занимает два слота расширения и потребляет 235 Вт. Её стоимость, скорее всего, превысит отметку в $5000 (для рынка США).

Кристалл GP100 в окружении четырёх микросхем HBM2

Кристалл GP100 в окружении четырёх микросхем HBM2

Графический адаптер Quadro P4000 8GB призван заменить Quadro M4000 (GM204) с тем же объёмом буферной памяти. Дебютант базируется на урезанном ядре Pascal GP104, а к его достоинствам стоит отнести невысокое энергопотребление (105 Вт) и однослотовое исполнение. По соотношению производительности и энергопотребления в FP32-вычислениях Quadro P4000 предпочтительнее GP100.

Quadro P2000 5GB имеет «экзотическую» конфигурацию ядра GP106: из шести 32-битных контроллеров памяти работают пять, количество потоковых процессоров, TMU и ROP уменьшено до 1024, 64 и 40 (по другим данным — 32) соответственно. Козырем новинки является отсутствие потребности в дополнительном питании и наличие четырёх разъёмов DisplayPort 1.4, как и у Quadro P4000.

Для относительно скромных низкопрофильных видеоадаптеров Quadro P1000, Quadro P600 и Quadro P400 избран 14-нм графический чип GP107. Производительность модели P1000 примерно в три раза выше, чем у P400, что заставляет усомниться в наличии у последней 128-разрядной шины памяти.

Синтетический тест SPECviewperf 12 показал значительное преимущество новых моделей Quadro Pascal над предшественниками — от 30 % до 100 %. Двукратный прирост был отмечен у Quadro P400 в сравнении с Quadro K420.

Поставки профессиональных ускорителей Quadro GP100, P4000, P2000, P1000, P600 и P400 начнутся в марте. Компании Dell, HP, Lenovo, Fujitsu и другие включат их в состав фирменных рабочих станций. В розничной продаже новинки можно будет встретить под брендом PNY.

Постоянный URL: http://servernews.ru/947106
28.10.2016 [00:11], Иван Грудцын

Supermicro анонсировала новые системы семейства SuperServer 4028GR

Известный производитель серверного оборудования Supermicro продолжает содействовать NVIDIA в увеличении спроса на её ускорители Tesla P100, предназначенные для решения ресурсоёмких задач. В частности, американская компания готовит поставки новых 4U-серверов семейства SuperServer 4028GR, оптимизированных для работы с устройствами Tesla P100 в виде плат SMX2 (интерфейс NVLink) и карт расширения PCI Express x16. О новых продуктах в семействе 4028GR представители Supermicro поведали в ходе недавнего мероприятия GPU Technology Conference (GTC) в г. Вашингтон.

Tesla P100

В число топовых решений Supermicro форм-фактора 4U вошли системы SuperServer 4028GR-TXR и SuperServer 4028GR-TXRT, поддерживающие одновременную установку восьми плат NVIDIA Tesla P100 (SXM2) и способствующие их эффективному охлаждению (благодаря оптимизированному дизайну корпуса). Пиковая производительность таких серверов при выполнении операций с числами половинной точности (FP16) может достигать 170 Тфлопс. Основное предназначение систем — вычисления, связанные с решением задач машинного обучения.

Tesla P100 в виде SMX2-устройства на стенде Supermicro в рамках ISC 2016

Tesla P100 в виде SMX2-устройства на стенде Supermicro в рамках ISC 2016

Вторая группа новинок — 4U-серверы SuperServer 4028GR-TR2/4028GR-TRT2 — поддерживают установку десяти карт Tesla P100 с разъёмом подключения PCI Express 3.0 x16. Производительность систем при выполнении FP16-операций может достигать 187 Тфлопс. Оптимизация компоновки материнской платы в части взаимодействия PCI-E устройств с CPU позволила более эффективно использовать интерфейс QPI. Кроме того, уменьшение различных задержек достигает 60 %.

Supermicro SuperServer 4028GR-TR2/4028GR-TRT2

В спецификациях систем SuperServer 4028GR-TR(T)2, с которыми можно ознакомиться по вышеприведённым ссылкам, имеется одно существенное различие: модель с суффиксом T оборудована двумя сетевыми адаптерами Intel X540 с пропускной способностью портов 10 Гбит/с, а 4028GR-TR(T)2, в свою очередь, ограничивается двумя контроллерами Intel i350 (10/100/1000 Мбит/с). Оба сервера рассчитаны на установку двух процессоров Intel Xeon E5-2600 v4/v3 с тепловым пакетом до 160 Вт и 24 накопителей форм-фактора 2,5 дюйма. Мощность используемых в 4028GR-TR2/4028GR-TRT2 источников питания составляет 2000 Вт, их высокий уровень КПД подтверждён сертификатом 80 PLUS Titanium.

Менее производительные, но и одновременно более доступные в ценовом отношении серверы с GPU Tesla P100 также входят в состав следующих семейств:

  • 1U 4 Pascal GPU Optimized SuperServer: модель 1028GQ-TR для задач машинного обучения;
  • 2U 6 Pascal GPU Optimized SuperServer: модель 2028GR-TRHT для задач машинного обучения;
  • 1U Ultra SuperServer: серия 1028U для ресурсоёмких корпоративных (enterprise) вычислений;
  • 2U Ultra SuperServer: серия 2028U для ресурсоёмких корпоративных (enterprise) вычислений, до четырёх GPU Pascal.
Постоянный URL: http://servernews.ru/941727
13.09.2016 [15:03], Иван Грудцын

NVIDIA представила ускорители Tesla P40 и Tesla P4

В ассортименте специализированных ускорителей компании NVIDIA появились модели Tesla P40 и Tesla P4, предназначенные для решения задач из области так называемого глубокого обучения (англ. deep learning). С помощью данных устройств самообучающиеся системы могут не только очень быстро делать логические выводы, но и анализировать десятки потоков видео одновременно. Новые адаптеры пришли на смену ускорителям поколения Maxwell — Tesla M40 и Tesla M4.

Tesla P40 использует полную версию графического процессора GP102, который, в свою очередь, является упрощённым вариантом HPC-чипа GP100. Карта оперирует 3840 потоковыми процессорами Pascal, 240 текстурными блоками (TMU), 96 блоками рендеринга (ROP), 384-разрядной шиной памяти и 24 Гбайт локальной памяти стандарта GDDR5. Применение относительно медленных микросхем буферной RAM, работающих на частоте 1800 (7200) МГц, сочетается у Tesla P40 с невысоким номиналом GPU — от 1303 МГц (базовая частота) до 1531 МГц (boost-режим). Пропускная способность подсистемы памяти равна 346 Гбайт/с.

NVIDIA Tesla P40

Энергопотребление модели P40 при полной загрузке GPU составляет в среднем 250 Вт, как и у NVIDIA TITAN X. Система охлаждения выполнена в виде крупного двухслотового радиатора, который должен продуваться вентиляторами серверных стоек. Габариты Tesla P40 равны 267(Д) × 112(Ш) × ~40(В) мм. В соответствии со спецификацией, ускоритель характеризуется производительностью в 12 TFLOPS при операциях с числами одинарной точности и 47 TOPS при целочисленных (INT8) операциях. Кроме того, поддерживается одновременный анализ 35 потоков видео формата H.264.

Возможности Tesla P4 скромнее ввиду использования ядра Pascal GP104. Чип содержит 2560 потоковых процессоров, 160 текстурных блоков, 64 блока растровых операций, шину памяти разрядностью 256 бит и 8 Гбайт GDDR5. Частота GPU довольно мала как для собрата GeForce GTX 1080 — от 810 до 1063 МГц. Микросхемы RAM работают на номинальных 1500 (6000) МГц, обеспечивая общую пропускную способность в 192 Гбайт/с. В зависимости от задач, Tesla P4 может иметь лимит мощности в 50 или 75 Вт. Дополнительное питание карте не требуется.

NVIDIA Tesla P4

Модель P4 выполнена в виде низкопрофильного адаптера с пассивной СО. Устройство демонстрирует производительность в 5,5 TFLOPS (числа одинарной точности) и 22 TOPS (целые числа). Как и P40, её «младшая сестра» может анализировать 35 видеопотоков в режиме реального времени.

Ускоритель Tesla P40 будет задействоваться в составе серверов от авторизованных партнёров NVIDIA начиная с октября, а Tesla P4 дебютирует в ноябре.

Постоянный URL: http://servernews.ru/939332
25.08.2016 [00:13], Иван Грудцын

Интерфейс NVLink 2.0 соединит GPU Volta и процессоры IBM Power9

В этом году NVIDIA порадовала любителей нерядовых новинок в сегменте дискретной графики картами на 16-нм чипах GP100 и GP102. Различия между старшим GPU для HPC-систем (GP100) и его производным — адаптером для широкого круга задач (GP102) оказались весьма существенными. В частности, проприетарный интерфейс NVLink, отличающий серверный графический процессор от собрата, способен обеспечивать пропускную способность в 40 Гбайт/с на один порт. Для сравнения, аналогичное значение для разъёма PCI Express 3.0 x16 составляет 16 ГТ/с (15,75 Гбайт/с), а для будущего PCI Express 4.0 x16 — 32 ГТ/с (31,5 Гбайт/с). При этом одним соединением NVLink дело не ограничивается. Так, у ускорителя Tesla P100 на чипе Pascal GP100 четыре порта NVLink, и, соответственно, пиковая пропускная способность достигает 160 Гбайт/с (4 × 40 Гбайт/с).

NVLink открывает возможность взаимодействия GPU двух систем

NVLink открывает возможность взаимодействия GPU двух систем

Среди тех, кто по достоинству оценил труд инженеров NVIDIA, оказалась корпорация IBM. Её 22-нм процессоры POWER8 прекрасно «дружат» с NVLink 1.0 и Tesla P100. В частности, был спроектирован 2P-сервер типоразмера 2U на основе процессоров POWER8 (POWER8+) и двух-четырёх адаптеров Tesla P100 с вышеупомянутым интерфейсом. На 2017 год запланировано создание ещё более мощной системы. В её состав войдут два CPU POWER9 и от четырёх до шести ускорителей NVIDIA Volta, содержащих порты NVLink 2.0. Форм-фактор останется прежним — 2U.

NVLink 2.0

По сообщению ресурса Fudzilla, вторая версия NVLink принесёт увеличение пропускной способности интерфейса с 20 до 25 Гбит/с на контакт, с 40 до 50 Гбайт/с на один порт и со 160 до 200 Гбайт/с на один GPU. Преимущество NVLink над PCI Express 4-го поколения будет весьма впечатляющим — 6,35 раза (четыре порта NVLink против 16-скоростного PCI-E 4.0).

NVLink 2.0

Внедрение NVLink 2.0 тесно связано с ожидающимся дебютом графических процессоров Volta в следующем году. Последние, по предварительным данным, будут выпускаться по нынешнему, но при этом «повзрослевшему» 16-нм техпроцессу, а в качестве буферной памяти будут использоваться микросхемы HBM2 (до внедрения HBM3 пока ещё далеко).

HBM2 — это надолго

HBM2 — это надолго

Что касается процессоров IBM POWER9, то они будут выпускаться по 14-нм технологической норме начиная со следующего года. Количество ядер составит 12 или 24. В данных CPU предусмотрены кеш третьего и четвёртого уровней, контроллер памяти DDR4, линии PCI Express 4.0, а также скоростной интерфейс для синхронизации работы двух процессоров на одной плате.

IBM POWER9

IBM POWER9

Постоянный URL: http://servernews.ru/938344
26.07.2016 [00:19], Иван Грудцын

NVIDIA представила видеоускорители Quadro P6000 и P5000

«Тяжеловес» рынка дискретной графики NVIDIA продолжает расширять ассортимент видеоадаптеров на 16-нм чипе Pascal GP100. До сегодняшнего дня калифорнийская компания анонсировала эталонный вариант GP100 с 3840 потоковыми процессорами, HPC-ускоритель Tesla P100 с интерфейсами NVLink и PCI Express, а также объявила о грядущем выходе видеокарты NVIDIA Titan X для широкого круга задач, включая игры и работу в GPU-ускоренных приложениях. Теперь же пришло время для анонса видеоадаптера Quadro P6000 (3584 ядра CUDA, 384-разрядная шина памяти), компанию которому составила модель Quadro P5000 на полнофункциональном чипе GP104 с 2560 ядрами CUDA и 256-битной шиной RAM.

Устройства Quadro последних поколений всегда выделялись внушительным объёмом буферной памяти, и карты Quadro P6000 не стали в этом плане исключением. Впрочем, ради увеличения общей ёмкости микросхем RAM инженеры NVIDIA принесли в жертву скорость доступа к ним (как и в Titan X): чипы HBM2 уступили место памяти GDDR5X суммарным объёмом 24 Гбайт. Тот же тип RAM задействован и в ускорителе Quadro P5000, который располагает вдвое большим объёмом локальной памяти (16 Гбайт) по сравнению с игровым GeForce GTX 1080. Производительность Quadro P6000 в FP32-вычислениях NVIDIA оценила в 12 TFLOPS.

Оба новых видеоускорителя Quadro характеризуются наличием разъёмов для вывода изображения DVI-D и DisplayPort 1.4 (4 шт.). С их помощью можно организовать рабочее пространство из четырёх мониторов с разрешением 4096 × 2160 пикселей при 120 Гц или 5120 × 2880 при 60 Гц. Активное охлаждение Quadro P6000/P5000 открывает возможность интеграции данных устройств в состав моделей серверов и рабочих станций, которые не оборудованы высокопроизводительными вентиляторами или СЖО.

NVIDIA Quadro P6000, P5000
NVIDIA Quadro P6000, P5000

NVIDIA подчёркивает, что новинки семейства Quadro должны справиться с практически с любыми задачами, в том числе теми, которые нецелесообразно выполнять на профессиональных картах поколений Kepler и Maxwell ввиду больших временных и эксплуатационных затрат. Так, Quadro P6000 способна отрисовывать очень большие CAD-модели, фотореалистичные сцены, выполнять GPGPU-вычисления и решать задачи, связанные с прогнозированием сейсмической активности. У Quadro P5000 возможности скромнее: работа с большими (сложными) объектами в CAD-приложениях, вычисления, связанные с сейсмическими исследованиями, отрисовка сложных DCC-эффектов и объёмных изображений в медицине (например, воссоздание моделей органов человека на основе вводных данных).

Видеоускорители NVIDIA Quadro P6000 и P5000 появятся у авторизованных поставщиков в октябре текущего года. Рекомендованные цены продуктов пока не объявлены.

Постоянный URL: http://servernews.ru/936733
Система Orphus