Материалы по тегу: nvlink

10.04.2018 [01:20], Алексей Степин

Тайны коммутатора NVIDIA NVSwitch

На прошедшей недавно конференции GTC (GPU Technology Conference) корпорация NVIDIA представила новый внутренний интерконнект NVSwitch, целью которой является эффективное объединение в сеть множества вычислительных процессоров Volta. Именно NVSwitch является сердцем демонстрационной системы DGX-2, аналоги которой планируется использовать в дальнейшем для постройки суперкомпьютера нового поколения Saturn V. С момента официального анонса новой технологии о ней стали известны новые детали, включая данные о внутренней архитектуре самого коммутатора NVSwitch. Как известно, вычислительные ускорители имеют три фундаментальных ограничения, влияющих на эффективность их работы в составе кластерной системы: производительность подсистемы ввода-вывода, пропускная способность памяти и объём этой самой памяти.

Кристалл NVSwitch

Кристалл NVSwitch

Последние два, впрочем, обходятся достаточно малой кровью: ускорители Volta могут нести на борту до 32 Гбайт памяти типа HBM2, которая, к тому же, может прокачивать до 900 Гбайт/с. Но по мере масштабирования системы проблема I/O встаёт всё острее, поскольку скорости, приведённые выше, сетям и сетевым средам пока недоступны, а значит, на задачах с большой степенью параллелизации главным фактором, ограничивающим производительность, может стать именно сеть. Это подтверждают и результаты тестирования суперкомпьютеров с помощью новой методики, о чём мы недавно рассказывали нашим читателям.

Его функциональные блоки

Его функциональные блоки

Решить эту проблему и призвана технология NVIDIA NVSwitch. Само сердце технологии, чип-коммутатор может работать в разных топологиях. Как уже было сказано, впервые он найдёт применение в системе DGX-2, поставки которой должны начаться в третьем квартале. NVIDIA пока не предполагает использование этого коммутатора для сетевого соединения нескольких «корпусов», то есть, в качестве, «внешнего интерконнекта», но это не значит, что разработчики суперкомпьютеров не решат попробовать новинку и в качестве такого решения.

Выглядит снимок кристалла NVSwitch довольно впечатляюще, что неудивительно, поскольку состоит этот кристалл из 2 миллиардов транзисторов. Предположительно, в его производстве задействован 12-нм техпроцесс класса FinFET, разработанный TSMC, но компания-разработчик хранит по этому поводу молчание, по крайней мере, пока. Архитектурно в составе NVSwitch можно выделить два блока по 8 портов NVLink плюс два дополнительных порта этой шины. Система соединений (кроссбар) работает в неблокирующем режиме, так что любой из портов NVLink в правом или левом модуле может напрямую работать с одним из двух портов в верхнем модуле. Это существенно отличает реальный чип от опубликованных в момент анонса данных о технологии NVSwitch.

Один из слайдов NVIDIA

Один из слайдов NVIDIA

На предыдущих слайдах изображено 16 чипов в 8 парах, соединённых друг с другом на скорости 300 Гбайт/с (150 Гбайт/с в каждую сторону) с тотальной пропускной способностью, достигающей 2,4 Тбайт/с. Но NVSwitch имеет 18 портов, поэтому при подключении 16 процессоров Volta остаётся место для дальнейшего расширения конфигурации. Если блок-схема DGX-2, продемонстрированная на презентации, верна, то в ней имеется 12 коммутаторов NVSwitch, но тогда не все порты остаются задействованными.

Это позволяет предположить, что 16-процессорая версия DGX-2 является пилотной, а дизайн NVSwitch создан с заделом на будущее и позволяет создавать, к примеру, 32-процессорные системы в одном корпусе-узле. Пока этому мешает текущая версия модуля backplane, которой оснащается DGX-2, но архитектурного запрета на создание системы с теми же 32 вычислительными GPU нет. Точных данных о топологии DGX-2 пока нет, на имеющемся слайде видны по шесть «толстых» шин на каждую «половину» кластера. С учётом свободных портов, скорость «общения половин» между собой может достигать 6 Гбайт/с (3 Гбайт/с в каждую сторону). 

Из этого слайда топология DGX-2 не ясна

Из этого слайда топология DGX-2 не ясна

Были различные предположения о топологии, включая схему «двойное кольцо», но в худшем сценарии такая схема соединяет два ГП через шесть «скачков» (hops), а это не лучший вариант с точки зрения латентности. NVIDIA употребляет термин «fully connected crossbar internally» по отношению к NVSwitch, но не говорит этого про систему в целом и про соединение между двумя половинами DGX-2. Если предположить, что для соединения используется пара «верхних» портов коммутатора, то ГП могут быть соединены попарно, но тогда для полноценного соединения всей системы в единое целое потребуются иные механизмы, например, дополнительные соединения PCI Express, что выглядит не слишком осмысленным, если сравнить скорости PCIe и декларируемые NVIDIA цифры, относящиеся к NVLink.

Как оказалось впоследствии и было подтверждено официально, 12 «лишних» портов NVLink в NVSwitch не задействованы в DGX-2. Топология внутренней сети в новой системе проще, и каждый из шести портов в Volta соединён с одним из NVSwitch «сверху». Аналогичным образом подключается восьмёрка ГП «снизу». Такая схема позволяет добиться латентности в два «хопа» между двумя любыми ГП на одной «половине» системы, а если требуется коммуникация между разными половинами, то количество «хопов» увеличивается до трёх.

А так она выглядит на самом деле

А так она выглядит на самом деле

Разумеется, это не единственный сценарий: в данном варианте использовано всего 6 чипов NVLink для каждой половины, но ничто не мешает увеличить их число до, скажем, двенадцати. Новая система весьма эффективна: для демонстрации NVIDIA использовала пару серверов DGX-1 с 8 ГП Volta V100 в каждом. Они были соединены между собой четырьмя каналами InfiniBand с совокупной пропускной способностью 400 Гбит/с. Сравнительные тесты показали более чем двукратное (от 2,4 до 2,7x) превосходство системы DGX-2, использующей новые технологии с NVSwitch во главе.

DGX-2 ставит новые рекорды

DGX-2 ставит новые рекорды

Выглядит новая технология очень многообещающе, но интересно будет взглянуть, как она поведёт себя при увеличении количества вычислительных узлов, ведь модули DGX-2 придётся как-то соединять между собой, и не поглотит ли это все преимущества в случае постройки достаточно крупного кластера? Есть вариант NUMA, но практический предел, достигнутый на сегодня, составляет 128 процессоров; более того, после 32 процессоров в такой схеме критическую роль начинают играть очереди запросов и задержки. Как только DGX-2 начнёт поставляться массово, мы, скорее всего, узнаем ответ.

Постоянный URL: http://servernews.ru/968189
10.09.2016 [02:00], Алексей Степин

IBM анонсировала новые процессоры Power8 с поддержкой NVLink

Несмотря на серьезную заявку архитектуры х86 на полное доминирование в компьютерном мире, остаются сферы и области, где используются иные, более эффективные в ряде задач архитектуры. Одной из таких областей является сфера супервычислений, где довольно прочно укрепилась компания IBM со своими процессорами Power. Текущее поколение этих процессоров носит общее название Power8, впервые оно было представлено ещё в 2013 году в версиях с количеством ядер от 4 до 12. Поколение Power9 должно увидеть свет в следующем году, ну а пока на днях корпорация анонсировала выпуск новых, усовершенствованных процессоров поколения Power8, получивших название Power8+.

IBM Power8 (без NVLink)

IBM Power8 (без NVLink)

Отличий у новинок немного. Самым главным является поддержка высокоскоростной шины обмена данными NVLink, разработанной и продвигаемой NVIDIA. Это позволяет создавать гетерогенные системы на базе Power8+ и ускорителей NVIDIA Pascal GP100 с невиданной ранее производительностью и отсутствием узких мест, ведь даже базовая версия NVLink обеспечивает пропускную способность 80 Гбайт/с. Каждый процессор Power8+ поддерживает прямое подключение до четырёх устройств NVLink, то есть, четырёхпроцессорная система с четырьмя 12-ядерными чипами может оснащаться шестнадцатью ускорителями GP100. Пока Power8+ имеет только один чип в семействе — десятиядерную модель с частотой до 3,26 ГГц. Интегрированный контроллер памяти DDR4 обладает пропускной способностью 115 Гбайт/с на процессор. Максимальный поддерживаемый объём составляет 512 Гбайт на чип.

Новое семейство серверов на базе Power8

Новое семейство серверов на базе Power8

Помимо обновлённых процессоров, компания также продемонстрировала новые серверные системы, но только одна из новинок, Power S822LC, предназначенная для рынка HPC, базируется на Power8+ и поддерживает NVLink. По словам производителя, скорость передачи данных у нее в пять раз превышает аналогичный параметр у сопоставимой по характеристикам системы на базе х86, а использование единого пространства памяти существенно облегчает разработку программного обеспечения, использующего ресурсы графических процессоров.  Эта система может нести на борту два 10-ядерных чипа Power8+ и до четырёх модулей NVIDIA GP100. Максимальная ёмкость оперативной памяти составляет 1 Тбайт в 32 модулях DIMM, общая пропускная способность подсистемы составляет 230 Гбайт/с. Имеются дополнительные слоты расширения PCIe, поддерживается как жидкостное, так и воздушное охлаждение.

NVLink позвляет ЦП и ГП общаться гораздо более эффективно

NVLink позволяет ЦП и ГП общаться гораздо более эффективно

Аналогичная модель выпущена для рынка Big Data, но она не использует ускорители GP100, а вместо этого поддерживает обычные ускорители NVIDIA в формате PCI Express. Зато количество дисковых отсеков в этой модели увеличено с двух до двенадцати, что позволяет разместить до 96 Тбайт дискового пространства в одном корпусе. Базовая модель S821LC выполнена в корпусе 1U (старшие имеют конструктив 2U) и по конфигурации напоминает S822LC for Big Data, но у неё всего четыре дисковых отсека и четыре слота PCIe. Возможна установка одного ускорителя NVIDIA K80 в форм-факторе PCI Express. В моделях S822LC for Big Data и 821LC максимальный объём оперативной памяти уменьшен до 512 Гбайт в 16 слотах DIMM. Напомним, что контроллеры памяти у Power8 внешние, выполненные в виде чипов Centaur, служащих также в качестве кеша L4.

IBM S822LC for High Performance Computing: два процессора и четыре ускорителя GP100

IBM S822LC for High Performance Computing: два процессора и четыре ускорителя GP100

Согласно данным, опубликованным IBM, ранние тесты, проделанные одним из крупнейших интернет-провайдеров, компанией Tencent, показали, что кластер на базе S822LC for BigData под нагрузкой показал результаты в три раза превосходящие результаты кластера на базе х86, причём, общее количество серверов в первом случае было на 2/3 меньше. На новые системы IBM ожидается существенный спрос: многие организации уже провели собственные тесты и разместили соответствующие заказы. В числе первых заказчиков значится лаборатория департамента энергетики США Oak Ridge National Laboratory (ORNL), а также ряд крупных межнациональных корпораций. ORNL планирует использовать новинки в качестве тестовой платформы для подготовки к выпуску следующего поколения процессоров IBM — Power9, которые также будут поддерживать NVLink, но уже новой, второй версии.

Постоянный URL: http://servernews.ru/939220
25.08.2016 [00:13], Иван Грудцын

Интерфейс NVLink 2.0 соединит GPU Volta и процессоры IBM Power9

В этом году NVIDIA порадовала любителей нерядовых новинок в сегменте дискретной графики картами на 16-нм чипах GP100 и GP102. Различия между старшим GPU для HPC-систем (GP100) и его производным — адаптером для широкого круга задач (GP102) оказались весьма существенными. В частности, проприетарный интерфейс NVLink, отличающий серверный графический процессор от собрата, способен обеспечивать пропускную способность в 40 Гбайт/с на один порт. Для сравнения, аналогичное значение для разъёма PCI Express 3.0 x16 составляет 16 ГТ/с (15,75 Гбайт/с), а для будущего PCI Express 4.0 x16 — 32 ГТ/с (31,5 Гбайт/с). При этом одним соединением NVLink дело не ограничивается. Так, у ускорителя Tesla P100 на чипе Pascal GP100 четыре порта NVLink, и, соответственно, пиковая пропускная способность достигает 160 Гбайт/с (4 × 40 Гбайт/с).

NVLink открывает возможность взаимодействия GPU двух систем

NVLink открывает возможность взаимодействия GPU двух систем

Среди тех, кто по достоинству оценил труд инженеров NVIDIA, оказалась корпорация IBM. Её 22-нм процессоры POWER8 прекрасно «дружат» с NVLink 1.0 и Tesla P100. В частности, был спроектирован 2P-сервер типоразмера 2U на основе процессоров POWER8 (POWER8+) и двух-четырёх адаптеров Tesla P100 с вышеупомянутым интерфейсом. На 2017 год запланировано создание ещё более мощной системы. В её состав войдут два CPU POWER9 и от четырёх до шести ускорителей NVIDIA Volta, содержащих порты NVLink 2.0. Форм-фактор останется прежним — 2U.

NVLink 2.0

По сообщению ресурса Fudzilla, вторая версия NVLink принесёт увеличение пропускной способности интерфейса с 20 до 25 Гбит/с на контакт, с 40 до 50 Гбайт/с на один порт и со 160 до 200 Гбайт/с на один GPU. Преимущество NVLink над PCI Express 4-го поколения будет весьма впечатляющим — 6,35 раза (четыре порта NVLink против 16-скоростного PCI-E 4.0).

NVLink 2.0

Внедрение NVLink 2.0 тесно связано с ожидающимся дебютом графических процессоров Volta в следующем году. Последние, по предварительным данным, будут выпускаться по нынешнему, но при этом «повзрослевшему» 16-нм техпроцессу, а в качестве буферной памяти будут использоваться микросхемы HBM2 (до внедрения HBM3 пока ещё далеко).

HBM2 — это надолго

HBM2 — это надолго

Что касается процессоров IBM POWER9, то они будут выпускаться по 14-нм технологической норме начиная со следующего года. Количество ядер составит 12 или 24. В данных CPU предусмотрены кеш третьего и четвёртого уровней, контроллер памяти DDR4, линии PCI Express 4.0, а также скоростной интерфейс для синхронизации работы двух процессоров на одной плате.

IBM POWER9

IBM POWER9

Постоянный URL: http://servernews.ru/938344
29.04.2016 [16:00], Антон Тестов

Zaius: первый сервер на базе IBM POWER9 разработки Google и Rackspace

Google и Rackspace начали использовать серверы на базе процессоров IBM POWER8 в своих центрах обработки данных (ЦОД) несколько месяцев назад. На сегодняшний день существенная часть программного обеспечения обеих компаний уже оптимизирована под новые микросхемы, а потому эксперимент с использованием этих систем можно считать удачным. Что ещё более интересно, так это то, что партнеры уже работают над новой серверной платформой на базе процессора IBM POWER9 следующего поколения.

На прошедшем недавно саммите OpenPOWER Foundation компании Google и Rackspace раскрыли первые подробности о разрабатываемой совместно горизонтально масштабируемой (scale-out) серверной платформе, известной под кодовым именем Zaius. Платформа будет базироваться на двух процессорах IBM POWER9 c неизвестным количеством ядер (однако, логично предполагать удвоение их количества относительно POWER8) и поддерживать 32 гнезда для памяти DDR4 (что даст возможность удвоить объём памяти относительно предшественника), два слота PCI Express 4.0 x16 для двух полноразмерных карт с поддержкой технологии когерентности памяти CAPI, один набор mezzanine-контактов NVLink для ускорителей NVIDIA Tesla, 15 накопителей данных в форм-факторе 2,5-дюйма с интерфейсом SAS, SATA или NVMe и т. д.

Архитектура серверной платформы Zaius. Фото Nikkei IT Pro - itpro.nikkeibp.co.jp

Архитектура серверной платформы Zaius. Фото Nikkei IT Pro - itpro.nikkeibp.co.jp

Примечательно, что Zaius поддерживает как FPGA-ускорители с CAPI 2.0, так и вычислительные процессоры NVIDIA Tesla (на базе архитектур Pascal и Volta) с технологией NVLink 2.0. Такая совместимость позволит Google и Rackspace более широко использовать специализированные ускорители, что должно увеличить энергоэффективность серверов на базе POWER9, а значит, уменьшить стоимость владения центров обработки данных. Свою лепту также внесёт и интерфейс PCIe 4.0, который удвоит пропускную способность (предположительно до 32 Гбайт/с для гнёзд PCIe 4.0 x16), доступную для твердотельных накопителей или же сопроцессоров. Сервер Zaius будет совместим с предлагаемыми стандартом для стоек Open Rack 48В и будет иметь высоту 1.25U.

Архитектура серверной платформы Zaius. Фото Nikkei IT Pro - itpro.nikkeibp.co.jp

Архитектура серверной платформы Zaius. Фото Nikkei IT Pro - itpro.nikkeibp.co.jp

Что касается самих процессоров IBM POWER9, то их версии для горизонтально масштабируемых серверов (тех, чья производительность увеличивается путём добавления новых машин в ЦОД) появятся на рынке в следующем году. Новые CPU будут базироваться на новой микроархитектуре и иметь до 24 ядер с технологией многопоточности и буферами памяти eDRAM. Системы на базе IBM POWER9 для scale-out машин более не будут использовать внешние буферы памяти, а будут опираться исключительно на встроенный контроллер DRAM. Процессоры POWER9 будут производится по технологическому процессу GlobalFoundres 14HP (14 нм, FinFET), но его характеристики неизвестны. Возможно, речь идёт о технологии 14 нм GlobalFoundries третьего поколения; возможно, о специализированных нормах производства IBM.

Перспективный план IBM в области микропроцессоров. Фото IBM PowerSystems JP - twitter.com/ibmpowerJP

Перспективный план IBM в области микропроцессоров. Фото IBM PowerSystems JP - twitter.com/ibmpowerJP

На саммите OpenPOWER Foundation представители Google заявили, что многие из облачных сервисов компании, в том числе Gmail, уже могут функционировать используя серверы на базе процессоров IBM POWER8. Судя по всему, компания находит производительность этих процессоров конкурентоспособной, ровно поэтому она работает над новым поколением машин на основе POWER9.

Долгосрочные планы компаний Google и Rackspace касательно серверных платформ IBM POWER нельзя недооценивать. Появление серверов Zaius в ЦОД указанных компаний означает, что они планируют продолжить оптимизацию программного обеспечения под процессоры на базе данной архитектуры. Таким образом, со временем у Google и Rackspace появится полноценная инфраструктура из ПО и аппаратного обеспечения, способная заменить программно-аппаратные комплексы на базе Intel Xeon.

Постоянный URL: http://servernews.ru/932236
Система Orphus