NVIDIA строит суперкомпьютер на 5280 ускорителях Tesla V100

 

Год назад компания NVIDIA представила суперкомпьютер DGX SaturnV для исследований в области искусственного интеллекта. Система включала 125 серверных узла DGX-1 (стоимостью $129 000 каждый) с весьма достойным соотношением производительности и энергопотребления, равным 9,46 Гфлопс/Вт. В престижном рейтинге TOP500 годичной давности сервер занял почётное 28 место, но за год опустился на восемь строчек, и в Санта-Кларе было принято решение построить подобный суперкомпьютер с бóльшим количеством узлов — 660 шт. При этом вместо DGX-1 на основе HPC-ускорителей Tesla P100 (Pascal) была сделана ставка на более мощные одноимённые узлы, оснащённые ускорителями Tesla V100 (Volta) — по восемь штук на узел, как и в DGX SaturnV первого поколения.


Согласно подсчётам NVIDIA, решение задач из области глубинного обучения занимает у восьми адаптеров Tesla V100 почти в два с половиной раза меньше времени, чем у DGX-1 с восемью Tesla P100, а «чистая» производительность в вычислениях половинной точности (они же FP16 или, по определению NVIDIA, «AI-вычисления») выше почти в шесть раз. Суммарная производительность 124 узлов DGX-1/P100 составляет всего 21,25 Пфлопс FP16, тогда как 660 узлов DGX-1/V100 — 660 Пфлопс.

DGX-1 на базе Tesla V100

NVIDIA DGX-1

«Пробный» сервер DGX SaturnV с несколькими десятками узлов DGX-1/V100 прописался на 149 месте в TOP500 и на почётном 4 месте в Green500.

Соотношение производительности и энергопотребления выросло с 9,46 Гфлопс/Вт до 15,11 Гфлопс/Вт, но для сотен узлов нового DGX SaturnV всё равно необходимы порядка 2 МВт мощности. Таким образом, количество блоков питания измеряется уже не сотнями, как у прошлогоднего SaturnV, а тысячами. На один серверный узел DGX-1 по-прежнему приходится два 20-ядерных процессора Intel Xeon E5-2698 v4 (Broadwell-EP) с частотой от 2,2 до 3,6 ГГц. Объём оперативной памяти LRDIMM DDR4-2133 составляет 512 Гбайт на узел, также применяются четыре 1,92-Тбайт SSD-накопителя.

Судя по отсутствию нового DGX SaturnV на третьей строчке в TOP500, где он мог бы оказаться с ~30 Пфлопс в Linpack, сборка суперкомпьютера займёт ещё какое-то время. Параллельно NVIDIA принимает заказы на AI-серверы с DGX-1/V100 в качестве «строительного блока». Один такой «кирпич» (узел) стоит $149 000 — на 20 тыс. долларов дороже, чем аналог на Tesla P100.

Источники:

Постоянный URL: http://servernews.ru/961485
Поделиться:  

Комментарии