Материалы по тегу: dgx-1

14.11.2017 [18:00], Иван Грудцын

NVIDIA строит суперкомпьютер на 5280 ускорителях Tesla V100

Год назад компания NVIDIA представила суперкомпьютер DGX SaturnV для исследований в области искусственного интеллекта. Система включала 125 серверных узла DGX-1 (стоимостью $129 000 каждый) с весьма достойным соотношением производительности и энергопотребления, равным 9,46 Гфлопс/Вт. В престижном рейтинге TOP500 годичной давности сервер занял почётное 28 место, но за год опустился на восемь строчек, и в Санта-Кларе было принято решение построить подобный суперкомпьютер с бóльшим количеством узлов — 660 шт. При этом вместо DGX-1 на основе HPC-ускорителей Tesla P100 (Pascal) была сделана ставка на более мощные одноимённые узлы, оснащённые ускорителями Tesla V100 (Volta) — по восемь штук на узел, как и в DGX SaturnV первого поколения.


Согласно подсчётам NVIDIA, решение задач из области глубинного обучения занимает у восьми адаптеров Tesla V100 почти в два с половиной раза меньше времени, чем у DGX-1 с восемью Tesla P100, а «чистая» производительность в вычислениях половинной точности (они же FP16 или, по определению NVIDIA, «AI-вычисления») выше почти в шесть раз. Суммарная производительность 124 узлов DGX-1/P100 составляет всего 21,25 Пфлопс FP16, тогда как 660 узлов DGX-1/V100 — 660 Пфлопс.

 DGX-1 на базе Tesla V100

NVIDIA DGX-1

«Пробный» сервер DGX SaturnV с несколькими десятками узлов DGX-1/V100 прописался на 149 месте в TOP500 и на почётном 4 месте в Green500.

Соотношение производительности и энергопотребления выросло с 9,46 Гфлопс/Вт до 15,11 Гфлопс/Вт, но для сотен узлов нового DGX SaturnV всё равно необходимы порядка 2 МВт мощности. Таким образом, количество блоков питания измеряется уже не сотнями, как у прошлогоднего SaturnV, а тысячами. На один серверный узел DGX-1 по-прежнему приходится два 20-ядерных процессора Intel Xeon E5-2698 v4 (Broadwell-EP) с частотой от 2,2 до 3,6 ГГц. Объём оперативной памяти LRDIMM DDR4-2133 составляет 512 Гбайт на узел, также применяются четыре 1,92-Тбайт SSD-накопителя.

Судя по отсутствию нового DGX SaturnV на третьей строчке в TOP500, где он мог бы оказаться с ~30 Пфлопс в Linpack, сборка суперкомпьютера займёт ещё какое-то время. Параллельно NVIDIA принимает заказы на AI-серверы с DGX-1/V100 в качестве «строительного блока». Один такой «кирпич» (узел) стоит $149 000 — на 20 тыс. долларов дороже, чем аналог на Tesla P100.

Постоянный URL: http://servernews.ru/961485
17.09.2017 [20:00], Иван Грудцын

Сервер NVIDIA DGX-1 возглавил рейтинг производительности Geekbench

Онлайн-база Geekbench Browser время от времени пополняется результатами, в которых фигурируют опытные образцы комплектующих — процессоров, материнских плат, графических адаптеров и т. д. И вот недавно в ней обнаружились записи, в которых фигурировал обновлённый сервер NVIDIA DGX-1 для задач глубинного обучения. Найти результаты системы на базе восьми HPC-ускорителей Tesla V100 было совсем несложно, ведь расположились они на первом и втором местах в табели о рангах Geekbench 4.

В ходе тестирования использовались разные API — OpenCL и CUDA. Прогон бенчмарка Geekbench 4 с проприетарным API NVIDIA оказался значительно более успешным, чем с альтернативным интерфейсом программирования приложений. Разница между результатами составила 54,4 % — 743 537 очков против 481 504. Лучшие результаты на ускорителях Tesla P100 сегодня выглядят совсем уж скромно на фоне успехов представителей семейства NVIDIA Volta. Лучший из них едва превысил отметку в 320 тыс. очков.

Тестирование проводилось в Linux-среде (Ubuntu 16.04.2 LTS), а конфигурация сервера DGX-1, скорее всего, соответствовала базовой. По умолчанию в 3U-корпусе установлены восемь ускорителей Tesla V100 16GB HBM2 в форм-факторе SXM2 (интерфейс NVLink 2.0 с ПСП 300 Гбайт/с), дуэт 20-ядерных процессоров Intel Xeon E5-2698 v4, 512 Гбайт оперативной памяти LRDIMM DDR4-2133, четыре 1,92-Тбайт SSD-накопителя в массиве RAID 0, такое же количество блоков питания номиналом 1600 Вт каждый и множество элементов системы охлаждения.

 Сравнение характеристик PCI-E и SXM2-версий Tesla V100

Сравнение характеристик PCI-E и SXM2-версий Tesla V100

Вычислительные возможности сервера NVIDIA DGX-1 образца 2017 года (ранее система базировалась на Tesla P100) наглядно иллюстрирует сравнение его результатов с показателями двух- и четырёхпроцессорных серверов, «заряженных» CPU Intel Xeon Platinum серии 8100. Шестикратное преимущество DGX-1 — веский аргумент в пользу решения NVIDIA. Напомним, что в матричных (Tensor) вычислениях производительность SXM2-версии Tesla V100 составляет 120 Тфлопс, а PCI-E версии — 112 Тфлопс. Последняя используется в рабочих станциях DGX Station «всего лишь» с четырьмя HPC-ускорителями NVIDIA и одним процессором Intel Xeon E5-2698 v4.

Поставки серверов DGX-1 на базе решений NVIDIA Volta начались более полутора месяцев назад. За одну систему заказчикам предлагается заплатить $149 000 — на 20 тыс. долларов больше, чем за аналогичный сервер на ускорителях Tesla P100.

Постоянный URL: http://servernews.ru/958629
02.08.2017 [12:00], Илья Гавриченков

NVIDIA начала поставлять Volta

AMD Vega – не единственная новая графическая архитектура, которая приходит на рынок этим летом. Поставки новых процессоров поколения Volta параллельно начала и NVIDIA, правда речь в данном случае идёт о GPU для расчётов в области искусственного интеллекта и глубинного обучения. Тем не менее, обойти вниманием это событие нельзя, поскольку продажи Volta стартовали раньше ожидаемого срока. Впрочем, это вряд ли может означать, что игровые видеокарты на базе NVIDIA Volta появятся в обозримом будущем.

Как сообщает Fudzilla, первая партия ускорителей Tesla V100, основанных на процессорах Volta GV100, была отгружена клиентам в составе обновлённых суперкомпьютерных модулей DGX-1 стоимостью $149 тыс. Каждый такой модуль, напомним, содержит восемь плат Tesla V100, которые в сумме могут предоставить разработчикам массив из более чем 40 тысяч CUDA-процессоров.

Первое поколение систем DGX-1 стоимостью $129 тыс, которое базировалось на картах Tesla P100, стало доступно в сентябре прошлого года, спустя полгода после премьеры архитектуры Pascal на конференции GTC 2016. Ускорители же Tesla V100 на базе архитектуры Volta, как можно судить по началу поставок обновлённых модулей DGX-1, оказались готовы к массовому выпуску заметно быстрее своих предшественников – спустя всего три месяца после анонса на мероприятии GTC 2017, которое прошло в мае. Это косвенно указывает на то, что цикл подготовки к серийному производству GPU поколения Volta оказался короче, чем в случае с процессором прошлого поколения, и NVIDIA потенциально готова начинать внедрение новой архитектуры в другие рыночные сегменты.

Это особенно важно, поскольку лежащий в основе Tesla V100 процессор GV100 – очень сложный чип площадью 815 мм2, состоящий из 21,1 млрд транзисторов. Глава NVIDIA, Дженсен Хуанг (Jensen Huang) в своё время называл Volta «самым большим чипом, который только можно сделать». Тем не менее, никаких проблем с его изготовлением по новому 12-нм FFN-техпроцессу, как можно судить, у TSMC не возникло.

В то же время столь скорое появление первых серийных профессиональных решений семейства Volta вряд ли можно считать признаком того, что игровые карты с перспективной архитектурой выйдут в обозримом будущем. Несколько дней тому назад мы стали свидетелями «триумфального возвращения AMD в область графики для энтузиастов» (так охарактеризовал выход Vega глава маркетингового отдела AMD, Крис Хук (Chris Hook)), однако это событие вряд ли способно подтолкнуть NVIDIA к каким-то активным действиям. Даже после появления на прилавках Radeon RX Vega 64 флагманский игровой ускоритель GeForce GTX 1080 Ti, очевидно, сохранит своё безальтернативное лидирующее положение. А это значит, что игровые видеокарты на базе Volta вряд ли увидят свет в текущем году, несмотря на циркулировавшие ранее слухи.

Постоянный URL: http://servernews.ru/956366
21.06.2017 [23:38], Иван Грудцын

В «меню» PNY на ISC 2017 — ускорители Quadro, Tesla и мощные серверы

Известный поставщик серверных решений, компания PNY, не могла пропустить выставку ISC 2017, где продемонстрировала свой ассортимент видеоадаптеров и систем в сборе. Большинство прототипов и продуктов полностью изготовлены на производственных мощностях подрядчиков и партнёров американской компании, в числе которых ASUS, Gigabyte, NVIDIA, Supermicro, TYAN и другие. Как бы то ни было, приобрести их зачастую можно только через PNY Technologies (в том числе и на российском рынке).

PNY уже давно занимается поставками ускорителей Quadro, но в этом году взялась отгружать ещё и модели Tesla. Официальный анонс PCI-E версии Tesla V100 состоялся только на днях, поэтому в компании решили ограничиться демонстрацией на стенде адаптера предыдущего поколения — Tesla P100. Продукт TCSP100M-16GB-PB оснащён графическим процессором NVIDIA GP100 (3584 шейдерных блоков) и 16 Гбайт памяти HBM2 с функцией контроля ошибок. В вычислениях двойной точности (FP64) карта обеспечивает быстродействие на уровне 4,67 Тфлопс, а её энергопотребление составляет 250 Вт.

Без Quadro также не обошлось: перед нами модель Quadro GP100 (PNY VCQGP100-PB) с теми же 3584 ядрами CUDA и 16 Гбайт HBM2, что и у Tesla P100. За счёт более высокой частоты GPU «чистая» производительность увеличена до 5,15 Тфлопс (FP64), а максимальное энергопотребление, наоборот, немного ниже — 235 Вт. В число видеовыходов включены DVI-D и квартет DisplayPort 1.4.

Дистрибуция серверов NVIDIA DGX-1 для вычислений, связанных с искусственным интеллектом, также не чужда PNY. Система DGX-1 первого поколения (на фото) содержит восемь ускорителей Tesla P100 с суммарной производительностью 170 Тфлопс (FP16). Среди прочего, сервер включает два 20-ядерных процессора Intel Xeon E5-2698 v4, 512 Гбайт памяти DDR4-2133 и четыре 1,92-Тбайт SSD-накопителя в RAID 0.

А так выглядит NVIDIA DGX-1 второго поколения (наше фото с ISC 2017):

Имеются в ассортименте PNY и серверы попроще. Как, например, следующая двухпроцессорная система с платой Gigabyte:

Однако системы наподобие PNY/TYAN FT77D-B7109 (см. ниже) всё-таки выглядят более впечатляюще. Мощь восьми ускорителей NVIDIA и двух Xeon может использоваться для научных исследований широкого спектра, анализа генетических последовательностей, обнаружения месторождений нефти и газа, масштабных проектов в области распознавания лиц и расшифровки важных данных методом полного перебора или «грубой силы» (англ. brute force). В 4U-корпусе также имеются посадочные места для четырнадцати 2,5-дюймовых SSD и четырёх M.2-накопителей.

Посетители ISC 2017 могли оценить прямо со стенда PNY работу кластера компании в г. Бордо. Для доступа к ресурсам HPC-системы было достаточно воспользоваться QR-кодом.

Постоянный URL: http://servernews.ru/954336
Система Orphus