Материалы по тегу: saturnv

07.12.2017 [18:44], Алексей Степин

Новый кластер NVIDIA Saturn V: некоторые подробности

Крупнейшие разработчики и производители микропроцессоров не очень-то любят рассказывать о своих проектах суперкомпьютеров, и информацию о таких проектах буквально приходится выцеживать по крупицам. Оригинальный узловой сервер NVIDIA DGX-1, являющийся основой кластера Saturn V, был представлен ещё на конференции SC16. Вся система состояла из 124 серверов DGX-1P, в каждом из которых было установлено по два 20-ядерных процессора Broadwell-EP с частотой 2,2 ГГц и по 8 ускорителей на базе Pascal P100 в форм-факторе SXM2, позволявшим пользоваться интерфейсом NVLink 1.0. На сегодня, однако, в руках NVIDIA есть куда более подходящий ускоритель - Tesla V100, чьи тензорные ядра делают его отличным решением для задач машинного обучения.

С четырьмя узлами DGX-1P, каждый из которых, к слову, мог потреблять до 3200 ватт, система смогла достичь пиковой производительности 4,9 петафлопса на вычислениях двойной точности. Тест матричной математики Linpack Fortran показал 67,5 % эффективности (3,31 петафлопса), что обеспечило системе 28 место в списке Top 500 на ноябрь 2016 года. Стоимость Saturn V составила $13 миллионов. Если бы процессоры Xeon имели интерфейс NVLink, производительность была бы выше, но они такового не имеют, вот почему NVIDIA вкладывает усилия в создание нового узлового сервера на базе процессоров POWER9. Назовём такую модель DGP-1V: в этом названии зашифровано сочетание POWER9 и ускорителей Volta. Новая версия NVLink 2.0 и когерентность кешей ЦП и ГП должна существенно увеличить эффективность такого сервера.

От малого к большому: иерархия узлов Saturn V

От малого к большому: иерархия узлов Saturn V

Новый Saturn V в максимальной конфигурации будет насчитывать до 660 узлов, оснащённых ускорителями Tesla V100; впрочем, их количество на узел останется прежним — по восемь ускорителей на корпус. Всего в системе будет 5280 процессоров Volta, что даст ей 80 петафлопс пиковой производительности на одинарной точности и 40 петафлопс — на двойной. Но что самое важное, в задачах машинного обучения, где часто используется смесь FP16 и FP32, теоретическая эффективная производительность нового Saturn V может достичь 660 петафлопс. Пока NVIDIA протестировала лишь 33-узловую конфигурацию, показавшую 1,82 петафлопса и эффективность на уровне 58,8 %, но удельная производительность составила 15,1 Гфлопс/ватт против 9,46 Гфлопс/ватт у системы предыдущего поколения.

Среднее звено

Среднее звено

Дешёвой новая система не будет: стоимость одного узла в полном оснащении оценивается в $149 тысяч (против $129 тысяч у DGX-1P), и суперкомпьютер Saturn V в новом своём воплощении может обойтись в $100‒$110 миллионов, причём эта цена не включает программное обеспечение для машинного обучения и внешние файловые системы Lustre или GPFS. Но заявка у «зелёных» серьёзная: в районе следующего года NVIDIA надеется смонтировать полную 660-узловую версию Saturn V и достичь показателя 22,3 петафлопса в тестах Linpack, что выведет новый суперкомпьютер на третье место в списке Top 500. Особенно большие надежды возлагаются на задачи машинного обучения: DGX-1P мог обеспечивать в этих сценариях 170 терафлопс, а вот условный DGP-1V за счёт наличия тензорных ядер — уже 960 терафлопс или в 5,6 раз больше.

Высший уровень

Высший уровень

Что касается сетевой конфигурации, то основой межузловых соединений станет стандарт InfiniBand EDR со скоростью 100 Гбит/с на кабель. Доступ к основной сети и хранилищам данных обеспечит сеть Ethernet на скорости 10 Гбит/с (несколько странно, что не использован более новый стандарт 25G), а для целей управления и телеметрии хватит и обычного канала Gigabit Ethernet. На среднем уровне коммутацию IB будут выполнять устройства Mellanox Director с 216 портами, а на высшем — ещё более мощные коммутаторы той же серии с 324 портами. Узким местом система межузловых соединений, скорее всего, не станет —  у Mellanox наработан огромный опыт в этой области, и есть полный спектр решений, покрывающих все потребности NVIDIA в проектировании сетевой подсистемы нового Saturn V.

Постоянный URL: http://servernews.ru/962577
14.11.2017 [18:00], Иван Грудцын

NVIDIA строит суперкомпьютер на 5280 ускорителях Tesla V100

Год назад компания NVIDIA представила суперкомпьютер DGX SaturnV для исследований в области искусственного интеллекта. Система включала 125 серверных узла DGX-1 (стоимостью $129 000 каждый) с весьма достойным соотношением производительности и энергопотребления, равным 9,46 Гфлопс/Вт. В престижном рейтинге TOP500 годичной давности сервер занял почётное 28 место, но за год опустился на восемь строчек, и в Санта-Кларе было принято решение построить подобный суперкомпьютер с бóльшим количеством узлов — 660 шт. При этом вместо DGX-1 на основе HPC-ускорителей Tesla P100 (Pascal) была сделана ставка на более мощные одноимённые узлы, оснащённые ускорителями Tesla V100 (Volta) — по восемь штук на узел, как и в DGX SaturnV первого поколения.


Согласно подсчётам NVIDIA, решение задач из области глубинного обучения занимает у восьми адаптеров Tesla V100 почти в два с половиной раза меньше времени, чем у DGX-1 с восемью Tesla P100, а «чистая» производительность в вычислениях половинной точности (они же FP16 или, по определению NVIDIA, «AI-вычисления») выше почти в шесть раз. Суммарная производительность 124 узлов DGX-1/P100 составляет всего 21,25 Пфлопс FP16, тогда как 660 узлов DGX-1/V100 — 660 Пфлопс.

DGX-1 на базе Tesla V100

NVIDIA DGX-1

«Пробный» сервер DGX SaturnV с несколькими десятками узлов DGX-1/V100 прописался на 149 месте в TOP500 и на почётном 4 месте в Green500.

Соотношение производительности и энергопотребления выросло с 9,46 Гфлопс/Вт до 15,11 Гфлопс/Вт, но для сотен узлов нового DGX SaturnV всё равно необходимы порядка 2 МВт мощности. Таким образом, количество блоков питания измеряется уже не сотнями, как у прошлогоднего SaturnV, а тысячами. На один серверный узел DGX-1 по-прежнему приходится два 20-ядерных процессора Intel Xeon E5-2698 v4 (Broadwell-EP) с частотой от 2,2 до 3,6 ГГц. Объём оперативной памяти LRDIMM DDR4-2133 составляет 512 Гбайт на узел, также применяются четыре 1,92-Тбайт SSD-накопителя.

Судя по отсутствию нового DGX SaturnV на третьей строчке в TOP500, где он мог бы оказаться с ~30 Пфлопс в Linpack, сборка суперкомпьютера займёт ещё какое-то время. Параллельно NVIDIA принимает заказы на AI-серверы с DGX-1/V100 в качестве «строительного блока». Один такой «кирпич» (узел) стоит $149 000 — на 20 тыс. долларов дороже, чем аналог на Tesla P100.

Постоянный URL: http://servernews.ru/961485
15.11.2016 [19:07], Константин Ходаковский

NVIDIA создаёт новые GPU с помощью своего суперкомпьютера на архитектуре Pascal

Представленный в апреле суперкомпьютер NVIDIA DGX SATURNV занял 28-е место по быстродействию в обновлённом мировом рейтинге Top500 и 1-е место — по энергоэффективности, которая оценивается в 9,46 гигафлопс на ватт. По этому показателю детище NVIDIA на 27 % обходит ближайшего конкурента из Швейцарии в лице Piz Daint. А если сравнивать с аналогичным по производительности суперкомпьютером Intel Camphore 2 на базе процессоров Xeon Phi Knights Landing, вычислительный центр SATURNV потребляет в 2,3 раза меньше энергии.

Именно графические ускорители дали резкий толчок развитию суперкомпьютерных мощностей и технологий искусственного интеллекта. Машинное самообучение открывает новые горизонты в самых разных сферах науки, медицины, финансов, проектирования и даже искусства.

Кластер общей производительностью 3,3 петафлопс включает 124 системы DGX-1, каждая из которых объединяет 8 графических процессоров Tesla P100 на архитектуре Pascal. По оценкам NVIDIA, один модуль DGX-1 способен заменить 250 серверов с процессорами x86. Неудивительно, что компания сама использует преимущества искусственного интеллекта в исследованиях и разработках.

В частности, ИИ-технологии суперкомпьютера SATURNV задействованы в разработке программного обеспечения платформы автономного вождения NVIDIA DRIVE PX 2, которая, например, станет основой автоматического управления электромобилей Tesla Motors. Более того, нейросети помогают инженерам компании проектировать дизайн новых сложноинтегрированных GPU и SoC.

Среди наиболее значимых сторонних применений серверов DGX-1 NVIDIA называет корпорацию SAP, предоставляющую инструменты бизнес-планирования 320 тысячам своих клиентов; разработчика искусственного интеллекта OpenAI; Стэндфордский и Нью-Йоркский университеты; стартап в области медицины BenevolentAI.

Постоянный URL: http://servernews.ru/942758
Система Orphus