Материалы по тегу: nvidia volta

17.09.2017 [20:00], Иван Грудцын

Сервер NVIDIA DGX-1 возглавил рейтинг производительности Geekbench

Онлайн-база Geekbench Browser время от времени пополняется результатами, в которых фигурируют опытные образцы комплектующих — процессоров, материнских плат, графических адаптеров и т. д. И вот недавно в ней обнаружились записи, в которых фигурировал обновлённый сервер NVIDIA DGX-1 для задач глубинного обучения. Найти результаты системы на базе восьми HPC-ускорителей Tesla V100 было совсем несложно, ведь расположились они на первом и втором местах в табели о рангах Geekbench 4.

В ходе тестирования использовались разные API — OpenCL и CUDA. Прогон бенчмарка Geekbench 4 с проприетарным API NVIDIA оказался значительно более успешным, чем с альтернативным интерфейсом программирования приложений. Разница между результатами составила 54,4 % — 743 537 очков против 481 504. Лучшие результаты на ускорителях Tesla P100 сегодня выглядят совсем уж скромно на фоне успехов представителей семейства NVIDIA Volta. Лучший из них едва превысил отметку в 320 тыс. очков.

Тестирование проводилось в Linux-среде (Ubuntu 16.04.2 LTS), а конфигурация сервера DGX-1, скорее всего, соответствовала базовой. По умолчанию в 3U-корпусе установлены восемь ускорителей Tesla V100 16GB HBM2 в форм-факторе SXM2 (интерфейс NVLink 2.0 с ПСП 300 Гбайт/с), дуэт 20-ядерных процессоров Intel Xeon E5-2698 v4, 512 Гбайт оперативной памяти LRDIMM DDR4-2133, четыре 1,92-Тбайт SSD-накопителя в массиве RAID 0, такое же количество блоков питания номиналом 1600 Вт каждый и множество элементов системы охлаждения.

Сравнение характеристик PCI-E и SXM2-версий Tesla V100

Сравнение характеристик PCI-E и SXM2-версий Tesla V100

Вычислительные возможности сервера NVIDIA DGX-1 образца 2017 года (ранее система базировалась на Tesla P100) наглядно иллюстрирует сравнение его результатов с показателями двух- и четырёхпроцессорных серверов, «заряженных» CPU Intel Xeon Platinum серии 8100. Шестикратное преимущество DGX-1 — веский аргумент в пользу решения NVIDIA. Напомним, что в матричных (Tensor) вычислениях производительность SXM2-версии Tesla V100 составляет 120 Тфлопс, а PCI-E версии — 112 Тфлопс. Последняя используется в рабочих станциях DGX Station «всего лишь» с четырьмя HPC-ускорителями NVIDIA и одним процессором Intel Xeon E5-2698 v4.

Поставки серверов DGX-1 на базе решений NVIDIA Volta начались более полутора месяцев назад. За одну систему заказчикам предлагается заплатить $149 000 — на 20 тыс. долларов больше, чем за аналогичный сервер на ускорителях Tesla P100.

Постоянный URL: http://servernews.ru/958629
21.06.2017 [09:30], Иван Грудцын

NVIDIA анонсировала PCI-E версию ускорителя Tesla V100

В мае NVIDIA положила начало эры 12-нм графических решений Volta, представив HPC-ускоритель Tesla V100 с интерфейсом NVLink 2.0 (300 Гбайт/с). Новый оптимизированный для NVIDIA техпроцесс TSMC, новые структурные блоки Tensor для матричных вычислений, огромный кристалл с 21 млрд транзисторов — разработчик постарался, чтобы V100 запомнили надолго.

Повод для очередного упоминания об ускорителе Tesla V100 у нас достаточно веский — официальный дебют его версии с интерфейсом подключения PCI Express 3.0 x16. Судя по набору характеристик, новинка немногим уступает основному адаптеру. По сути, кроме использования разъёма PCI-E 3.0 и немного меньшей boost-частоты ядра (около 1370 МГц), других ограничений не предусмотрено, и V100 готов усилить рабочие станции и серверы заказчиков уже в ближайшем будущем.

С положительной стороны PCI-E модификация Tesla V100 отличается от «старшей сестры» меньшим энергопотреблением — 250 Вт против 300 Вт. Это позволяет использовать как жидкостные, так и воздушные системы охлаждения с невысоким уровнем шума. Графическое ядро ускорителя — GV100 — включает в себя 5120 потоковых процессоров и 640 блоков матричных вычислений (Tensor). Микросхемы памяти HBM2 объёмом 16 Гбайт (4 × 4 Гбайт) работают на частоте 900 МГц, пропускная способность подсистемы памяти увеличена на 25 % по сравнению с Tesla P100 (Pascal) — с 720 до 900 Гбайт/с. Производительность Tesla V100 достигает 7 Тфлопс в вычислениях двойной точности, 14 Тфлопс — одинарной и 28 Тфлопс — половинной. Для матричных вычислений цифра ещё выше — 112 Тфлопс.

Тем временем нашему корреспонденту на выставке-конференции ISC 2017 в Германии удалось запечатлеть на фото обновлённый сервер DGX-1 и рабочую станцию DGX Station. Обе системы оборудованы картами V100 и предназначены для ресурсоёмких вычислений, связанных с решением задач в области искусственного интеллекта.

Сервер NVIDIA DGX-1 оснащён восемью ускорителями Tesla V100, двумя 20-ядерными процессорами Intel Xeon E5-2698 v4, 512 Гбайт оперативной памяти, четырьмя 1,92-Тбайт SSD в RAID 0, проводным сетевым интерфейсом 10-Гбит Ethernet (2 порта) и 3,2-кВт блоком питания. Рекомендованная цена системы для рынка США составляет $149 000.

У рабочей станции DGX Station всего вполовину меньше (кроме накопителей — их по-прежнему четыре). Цена, соответственно, не шестизначная, а пятизначная — $69 000. Процессор Xeon E5-2698 v4 и квартет карт Tesla V100 охлаждаются СЖО. Уровень шума на фоне DGX-1 невысок.

Постоянный URL: http://servernews.ru/954273
11.05.2017 [10:00], Иван Грудцын

Эра NVIDIA Volta началась с ускорителя Tesla V100

На конференции GTC 2017 в американском городе Сан-Хосе компания NVIDIA в лице её генерального директора Дженсена Хуанга (Jen-Hsun Huang) представила ускоритель Tesla V100 для дата-центров на основе графического процессора Volta GV100. Разработка последнего обошлась NVIDIA в $3 млрд, и в результате свет увидел чип площадью 815 мм², содержащий 21,1 млрд транзисторов, более 5000 потоковых процессоров и новые блоки Tensor, повышающие производительность GPU в так называемых матричных вычислениях. Изготовление ядер GV100 было поручено давнему партнёру NVIDIA — тайваньскому полупроводниковому гиганту TSMC. Техпроцесс выпуска — 12-нм FFN. Последняя буква в аббревиатуре FFN обозначает не что иное, как «NVIDIA»: технологическая норма разрабатывалась с учётом требований заказчика.

Tesla V100

Tesla V100

Из года в год сложность архитектуры кремниевых кристаллов для HPC-задач продолжает расти, и теперь, с дебютом NVIDIA Volta, остаётся констатировать, что помимо потоковых процессоров, кеш-памяти первого и второго уровней, текстурных блоков, контроллеров VRAM и системного интерфейса, частью high-end GPU становятся блоки Tensor. У GV100 их по 8 на мультипроцессорный кластер (SM) и 672 в целом.

SM-блок Volta GV100

SM-блок Volta GV100

Матричные вычисления в блоках Tensor увеличивают производительность нового ядра в задачах машинного обучения до 120 Тфлопс. В то же время быстродействие GV100 в FP32-вычислениях составляет 15 Тфлопс, а в FP64-вычислениях — 7,5 Тфлопс.

Ядро Volta GV100

Volta GV100

Ядро Volta GV100 неотделимо от буферной памяти — четырёх микросхем HBM2, взаимодействующих с GPU по 4096-битной шине. Объём каждого чипа составляет 4 Гбайт, пропускная способность подсистемы памяти — 900 Гбайт/с. Кристалл GV100 дебютирует одновременно с ускорителем Tesla V100, являясь его основой. В V100 ядро работает на частоте до 1455 МГц (с учётом динамического разгона) обеспечивая вышеуказанную производительность в FP32-, FP64- и матричных (Tensor) вычислениях. Адаптер с GPU впечатляющих размеров потребляет умеренные 300 Вт — столько же, сколько и Tesla P100.

Спецификации ускорителей NVIDIA Tesla разных лет

Спецификации ускорителей NVIDIA Tesla разных лет

Вычислительные возможности Volta GV100

Вычислительные возможности Volta GV100

По эскизу в начале данной заметки можно было догадаться, что соединение Tesla V100 с такими же ускорителями и центральным процессором обеспечивает интерфейс типа NVLink. В этот раз это не интерфейс первого поколения, а NVLink 2.0 — соответствующие контакты находятся на тыльной поверхности карты. В Tesla V100 реализовано шесть двунаправленных 25-Гбайт соединений (суммарно 300 Гбайт/с), а также функция согласования содержимого кеш-памяти с кешем центрального процессора IBM POWER9.

Распространение новых HPC-ускорителей будет осуществляться по межкорпоративным (B2B) каналам. При этом заказчики получат свободный выбор между готовыми решениями вкупе с сопутствующим программным обеспечением и технической поддержкой. Все три системы — DGX-1, HGX-1 и DGX Station — предназначены для решения задач, связанных с развитием искусственного интеллекта (AI).

С системой глубинного обучения NVIDIA DGX-1 первого поколения мы уже знакомили читателей — она использует восемь ускорителей Tesla P100 с производительностью 170 Тфлопс в вычислениях половинной точности (FP16). Обновлённый сервер DGX-1 содержит восемь карт Tesla V100 с быстродействием 960 Тфлопс (FP16), два центральных процессора Intel Xeon и блок(-и) питания суммарной мощностью не менее 3200 Вт. Такой апгрейд позволяет выполнять не только типичные задачи в области исследования AI, но и переходить к новым, целесообразность решения которых прежде была под вопросом ввиду высокой сложности вычислений.

Предварительный заказ системы NVIDIA DGX-1 второго поколения обойдётся всем желающим в $149 000. Ориентировочный срок начала поставок — третий квартал текущего года.

Сервер HGX-1 на восьми ускорителях Tesla V100 аналогичен DGX-1. Ключевое отличие данной системы заключается в применении жидкостного охлаждения компонентов. Кроме того, NVIDIA HGX-1 проще внедрить с ИТ-инфраструктуру компаний. Помимо глубинного обучения, этот сервер может использоваться в экосистеме GRID, а также для решения широкого круга HPC-задач.

NVIDIA HGX

NVIDIA DGX Station представляет собой высокопроизводительную рабочую станцию с четырьмя картами Tesla V100, центральным процессором Intel Xeon, системой жидкостного охлаждения и 1500-ваттным источником питания. Ускорители NVIDIA в составе DGX Station оснащены интерфейсом NVLink 200 Гбайт/с и тремя разъёмами DisplayPort с поддержкой разрешения 4K.

В матричных Tensor-вычислениях  DGX Station обеспечивает быстродействие на уровне 480 Тфлопс. Стоимость рабочей станции для рынка США равна $69 000.

Постоянный URL: http://servernews.ru/952008
25.08.2016 [00:13], Иван Грудцын

Интерфейс NVLink 2.0 соединит GPU Volta и процессоры IBM Power9

В этом году NVIDIA порадовала любителей нерядовых новинок в сегменте дискретной графики картами на 16-нм чипах GP100 и GP102. Различия между старшим GPU для HPC-систем (GP100) и его производным — адаптером для широкого круга задач (GP102) оказались весьма существенными. В частности, проприетарный интерфейс NVLink, отличающий серверный графический процессор от собрата, способен обеспечивать пропускную способность в 40 Гбайт/с на один порт. Для сравнения, аналогичное значение для разъёма PCI Express 3.0 x16 составляет 16 ГТ/с (15,75 Гбайт/с), а для будущего PCI Express 4.0 x16 — 32 ГТ/с (31,5 Гбайт/с). При этом одним соединением NVLink дело не ограничивается. Так, у ускорителя Tesla P100 на чипе Pascal GP100 четыре порта NVLink, и, соответственно, пиковая пропускная способность достигает 160 Гбайт/с (4 × 40 Гбайт/с).

NVLink открывает возможность взаимодействия GPU двух систем

NVLink открывает возможность взаимодействия GPU двух систем

Среди тех, кто по достоинству оценил труд инженеров NVIDIA, оказалась корпорация IBM. Её 22-нм процессоры POWER8 прекрасно «дружат» с NVLink 1.0 и Tesla P100. В частности, был спроектирован 2P-сервер типоразмера 2U на основе процессоров POWER8 (POWER8+) и двух-четырёх адаптеров Tesla P100 с вышеупомянутым интерфейсом. На 2017 год запланировано создание ещё более мощной системы. В её состав войдут два CPU POWER9 и от четырёх до шести ускорителей NVIDIA Volta, содержащих порты NVLink 2.0. Форм-фактор останется прежним — 2U.

NVLink 2.0

По сообщению ресурса Fudzilla, вторая версия NVLink принесёт увеличение пропускной способности интерфейса с 20 до 25 Гбит/с на контакт, с 40 до 50 Гбайт/с на один порт и со 160 до 200 Гбайт/с на один GPU. Преимущество NVLink над PCI Express 4-го поколения будет весьма впечатляющим — 6,35 раза (четыре порта NVLink против 16-скоростного PCI-E 4.0).

NVLink 2.0

Внедрение NVLink 2.0 тесно связано с ожидающимся дебютом графических процессоров Volta в следующем году. Последние, по предварительным данным, будут выпускаться по нынешнему, но при этом «повзрослевшему» 16-нм техпроцессу, а в качестве буферной памяти будут использоваться микросхемы HBM2 (до внедрения HBM3 пока ещё далеко).

HBM2 — это надолго

HBM2 — это надолго

Что касается процессоров IBM POWER9, то они будут выпускаться по 14-нм технологической норме начиная со следующего года. Количество ядер составит 12 или 24. В данных CPU предусмотрены кеш третьего и четвёртого уровней, контроллер памяти DDR4, линии PCI Express 4.0, а также скоростной интерфейс для синхронизации работы двух процессоров на одной плате.

IBM POWER9

IBM POWER9

Постоянный URL: http://servernews.ru/938344
Система Orphus