Материалы по тегу: интерконнект

09.10.2019 [11:59], Алексей Разин

Intel сворачивает поставки процессоров Xeon с интегрированной шиной Omni-Path

В начале августа стало известно, что корпорация Intel прекращает разработку продуктов с шиной Omni-Path второго поколения с пропускной способностью 200 Гбит/с на порт. Первое поколение интерконнекта было представлено в 2017 году, компания даже поставляла процессоры Xeon серии «F» с интегрированным адаптером Omni-Path.

Но теперь и они должны покинуть рынок. На этой неделе Intel распространила уведомление, в котором сообщала о графике прекращения поставок процессоров с поддержкой Omni-Path.

Источник изображения: Intel

Источник изображения: Intel

Заказать подобные процессоры можно будет до 24 апреля следующего года, последняя партия покинет склады Intel девятого октября того же года. Как всегда, подобное решение продиктовано смещением спроса на другие продукты Intel. Очевидно, что процессоры Xeon с интегрированнной поддержкой Omni-Path особой популярностью не пользовались.

Источник изображения: Intel

Источник изображения: Intel

Клиенты Intel не видят будущего для продуктов с поддержкой Omni-Path, поскольку второе поколение скоростного интерфейса на рынок не выйдет. Соответственно, они достаточно быстро потеряли интерес и к первому поколению этой шины. По всей видимости, конкурировать с решениями Mellanox, которая скоро перейдёт под контроль NVIDIA, компания Intel собирается за счёт создания более быстрых версий Ethernet и перехода на кремниевую фотонику.

Постоянный URL: http://servernews.ru/995311
01.10.2019 [15:20], Сергей Тверье

Проект DARPA FastNIC нацелен на 100-кратное ускорение сетевых интерфейсов

Медленное интернет-подключение может вывести из себя любого, но только представьте, что «испытывают» суперкомпьютеры, для которых в настоящее время даже самое современное сетевое оборудование не может обеспечить необходимый поток данных. 

Десятки тысяч процессоров и ядер выполняют практически мгновенную обработку любой информации, но, в итоге, высокопроизводительные системы вынуждены простаивать, ожидая обмена данными по морально устаревшим сетевым интерфейсам.

Управление перспективных исследовательских проектов Министерства обороны США (DARPA), кажется, эта ситуация больше не устраивает, поэтому оно запускает программу под названием FastNICs нацеленную на создание нового стека сетевых технологий, который будет в 100 раз быстрее старого.

DARPA уверена, что существующий сетевой стек технологий устарел и представляет собой узкое место для современных высокоскоростных вычислений, поэтому агентство запускает специальную программу, которая должна решить данную проблему

DARPA уверена, что существующий сетевой стек технологий устарел и представляет собой узкое место для современных высокоскоростных вычислений, поэтому агентство запускает специальную программу, которая должна решить данную проблему

По оценке DARPA, современные многопроцессорные сервера, сервера с GPU и аналогичные вычислительные узлы совместными усилиями могут работать с потоком данных примерно 1014 бит в секунду (100 Тбит/с). Примерно такую же агрегированную пропускную способность могут обеспечить современные высокоплотные коммутаторы верхнего уровня. Но при этом связующий их сетевой стек, как правило, в 100-1000 раз медленнее. 

«Истинным узким местом для пропускной способности процессора является сетевой интерфейс, используемый для подключения машины к внешней сети, такой как Ethernet, что серьезно ограничивает возможности загрузки данных», — объясняет др. Джонатан Смит (Dr Jonathan Smith), менеджер программ в Информационном инновационном офисе DARPA.

Для решения данной проблемы агентство запускает программу Fast Network Interface Cards (FastNIC). Задачей программы будет повысить производительность сетевого стека в 100 раз за счёт принципиально иных подходов. Причём для получения такого значительного прироста производительности потребуется переделка всего стека — от уровня прикладных и системных приложений до аппаратного обеспечения.

«Создание сетевого стека сопряжено с большими затратами и сложностями», — указывает Смит. «Начинается оно с аппаратного обеспечения: если вы не сможете сделать его правильно, то вы застрянете. Программное обеспечение просто не может выполнять задачи быстрее, чем позволяет физический уровень, поэтому сначала нам нужно изменить именно его».

Одновременно исследователи займутся разработкой системного программного обеспечения, необходимого для управления аппаратными ресурсами FastNIC. Для достижения 100-кратного увеличения пропускной способности на уровне приложений программное обеспечение должно будет поддерживать максимально эффективную параллельную передачу данных между сетевым оборудованием и другими элементами системы.

Агентство указывает на то, что все разработанные в рамках программы инструменты и библиотеки будут предоставлены сообществу в виде открытого исходного кода, а также будут совместимы минимум с одной из открытых операционных систем.

Прежде всего DARPA заинтересована в новых технологиях для ускорения задач машинного обучения, в том числе распознавания образов при работе со множеством датчиков, например, установленных на беспилотных летательных аппаратах.

К участию в программе приглашаются все заинтересованные организации, которые имеют теоретические наработки по созданию сетей работающих на 10-терабитных скоростях, чтобы продемонстрировать эффективность своего решения на примере одного из выбранных агентством прикладных приложений.

Временные ограничения на данный момент не установлены, но, как и обычно, DARPA гарантирует финансовую поддержку и вознаграждения всем участникам проекта. Подробнее о программе на английском языке вы можете прочитать здесь. Напомним, что ранее DARPA анонсировала проект PAPPA, нацеленный на создание нового стека технологий для высокопараллельного ПО с целью ускорения выполнения ряда задач в 10 000 раз.

Постоянный URL: http://servernews.ru/994914
02.08.2019 [14:32], Геннадий Детинич

Intel хоронит шину Omni-Path

Довольно неожиданно компания Intel отказалась от развития интерконнекта Omni-Path, которую она продвигала в серверных и HPC-платформах сначала для соединения узлов, в том числе для гиперконвергентных систем. Первое поколение шины Omni-Path с пропускной способностью до 100 Гбит/с на порт появилось несколько лет назад. Но ожидаемого второго поколения решений с пропускной способностью до 200 Гбит/с уже не будет.

Усклориттели Intel Xeon Phi с интерированными контроллером и шиной Omni-Path

Ускорители Intel Xeon Phi с интегрированными контроллером и шиной Omni-Path

Информацию о прекращении разработки и выпуска продукции Intel OmniPath Architecture 200 (OPA200) компания подтвердила, например, нашим коллегам с сайта HPCwire. Компания продолжит поддержку и поставку решений с шиной OPA100, но поставок продуктов с архитектурой OPA200 на рынок больше не будет.

В принципе, сравнительно слабая поддержка шины Intel OmniPath со стороны клиентов рынка высокопроизводительных систем намекала на нечто подобное. Большей популярностью у строителей суперсистем и не только продолжает пользоваться InfiniBand и её новое HDR-воплощение с той же пропускной способностью до 200 Гбит/с. В свете ликвидации OPA200 становится понятно, почему Intel схватилась с NVIDIA за право поглощения компании Mellanox. Но не вышло: приз ушёл к NVIDIA.

«Вообще, половина инсталляций в TOP500 использует Ethernet, но в основном 10/25/40 Гбит/с, и лишь совсем чуть-чуть может похвастаться 100 Гбит/с. InfiniBand установлен почти в 130 машинах, а Omni-Path есть чуть больше чем в 40. Остальное — проприетарные разработки».

Что остаётся Intel? У лидера рынка микропроцессоров есть I/O-активы. Компания около 8 лет активно выстраивает направление для развития коммуникаций в ЦОД. За это время она поглотила разработчика коммутационных ASIC компанию Fulcrum Microsystems, подразделение по разработке адаптеров и коммутаторов InfiniBand компании QLogic и коммуникационное подразделение компании Cray. Относительно свежей покупкой Intel стала компания Barefoot Networks, разработчик решений для Ethernet-коммутаторов.

Похоже, Intel решила вернуться к классике: InfiniBand (что менее вероятно) и Ethernet (что более вероятно), а о проприетарных шинах в виде той же Omni-Path решила забыть. В конце концов, Ethernet-подразделение компании славится своими продуктами. Новое поколения Intel Ethernet 800 Series способно заменить OPA100.

Постоянный URL: http://servernews.ru/991776
23.07.2018 [13:40], Сергей Карасёв

Новая система «Ангара» объединит любые компьютеры в вычислительные кластеры

Ростех сообщает о том, что российские специалисты разработали коммуникационную сеть «Ангара» следующего поколения, которая позволяет объединять любые компьютеры с поддержкой PCI Express в мощные вычислительные кластеры.

Платформа «Ангара» даёт возможность формировать суперкомпьютерные комплексы самого разного масштаба. Специальные адаптеры позволяют взаимодействовать узлам, находящимся как в одном здании, так и на расстоянии в несколько тысяч километров друг от друга (правда, тут уже речь о низких задержках не идёт).

Разработку системы ведёт «Научно-исследовательский центр электронной вычислительной техники», который входит в холдинг «Росэлектроника» госкорпорации Ростех. Сеть «Ангара» нового поколения обеспечивает в три раза более высокую скорость обмена данными по сравнению с предыдущей версией платформы. Таким образом, существенно возрастёт общая производительность суперкомпьютерного комплекса.

«Ангара» даёт возможность объединять в единую сеть практически любое количество узлов — от нескольких единиц до десятков тысяч. Для связи могут использоваться стандартные медные или оптические кабели. Коммуникационная задержка при передаче данных между вычислительными узлами составит всего 0,85 мкс.

Сеть «Ангара» также может являться основой ЦОДов, систем хранения данных, программно-аппаратных комплексов для работы с большими данными. Ожидается, что новая разработка даст толчок развитию суперкомпьютерных технологий в России, а также отечественной науки и промышленности в целом. О первом поколении данного интерконнекта можно узнать в материале с ПаВТ-2016

«Ангара»: низкопрофильный адаптер

«Ангара»: низкопрофильный адаптер

Обновление. Разработчики уточнили, что это не следующее поколение их интерконнекта, а новая версия первого поколения сети: «На выставке Иннопром-2018 АО «НИЦЭВТ» представило второе поколение сетевого оборудования Ангара на базе СБИС ЕС8430. Данное решение включает в себя low-profile адаптер ЕС8432 и 24-портовый сетевой коммутатор. Обновленная версия сетевого оборудования в первую очередь предназначена для использования в составе вычислительных кластеров с высокими требованиями к плотности компоновки системы. Также обеспечена поддержка кабелей со стандартным коннектором CXP».

Сетевой коммутатор «Ангара»

Сетевой коммутатор «Ангара»

Постоянный URL: http://servernews.ru/972953
10.04.2018 [01:20], Алексей Степин

Тайны коммутатора NVIDIA NVSwitch

На прошедшей недавно конференции GTC (GPU Technology Conference) корпорация NVIDIA представила новый внутренний интерконнект NVSwitch, целью которой является эффективное объединение в сеть множества вычислительных процессоров Volta. Именно NVSwitch является сердцем демонстрационной системы DGX-2, аналоги которой планируется использовать в дальнейшем для постройки суперкомпьютера нового поколения Saturn V. С момента официального анонса новой технологии о ней стали известны новые детали, включая данные о внутренней архитектуре самого коммутатора NVSwitch. Как известно, вычислительные ускорители имеют три фундаментальных ограничения, влияющих на эффективность их работы в составе кластерной системы: производительность подсистемы ввода-вывода, пропускная способность памяти и объём этой самой памяти.

Кристалл NVSwitch

Кристалл NVSwitch

Последние два, впрочем, обходятся достаточно малой кровью: ускорители Volta могут нести на борту до 32 Гбайт памяти типа HBM2, которая, к тому же, может прокачивать до 900 Гбайт/с. Но по мере масштабирования системы проблема I/O встаёт всё острее, поскольку скорости, приведённые выше, сетям и сетевым средам пока недоступны, а значит, на задачах с большой степенью параллелизации главным фактором, ограничивающим производительность, может стать именно сеть. Это подтверждают и результаты тестирования суперкомпьютеров с помощью новой методики, о чём мы недавно рассказывали нашим читателям.

Его функциональные блоки

Его функциональные блоки

Решить эту проблему и призвана технология NVIDIA NVSwitch. Само сердце технологии, чип-коммутатор может работать в разных топологиях. Как уже было сказано, впервые он найдёт применение в системе DGX-2, поставки которой должны начаться в третьем квартале. NVIDIA пока не предполагает использование этого коммутатора для сетевого соединения нескольких «корпусов», то есть, в качестве, «внешнего интерконнекта», но это не значит, что разработчики суперкомпьютеров не решат попробовать новинку и в качестве такого решения.

Выглядит снимок кристалла NVSwitch довольно впечатляюще, что неудивительно, поскольку состоит этот кристалл из 2 миллиардов транзисторов. Предположительно, в его производстве задействован 12-нм техпроцесс класса FinFET, разработанный TSMC, но компания-разработчик хранит по этому поводу молчание, по крайней мере, пока. Архитектурно в составе NVSwitch можно выделить два блока по 8 портов NVLink плюс два дополнительных порта этой шины. Система соединений (кроссбар) работает в неблокирующем режиме, так что любой из портов NVLink в правом или левом модуле может напрямую работать с одним из двух портов в верхнем модуле. Это существенно отличает реальный чип от опубликованных в момент анонса данных о технологии NVSwitch.

Один из слайдов NVIDIA

Один из слайдов NVIDIA

На предыдущих слайдах изображено 16 чипов в 8 парах, соединённых друг с другом на скорости 300 Гбайт/с (150 Гбайт/с в каждую сторону) с тотальной пропускной способностью, достигающей 2,4 Тбайт/с. Но NVSwitch имеет 18 портов, поэтому при подключении 16 процессоров Volta остаётся место для дальнейшего расширения конфигурации. Если блок-схема DGX-2, продемонстрированная на презентации, верна, то в ней имеется 12 коммутаторов NVSwitch, но тогда не все порты остаются задействованными.

Это позволяет предположить, что 16-процессорая версия DGX-2 является пилотной, а дизайн NVSwitch создан с заделом на будущее и позволяет создавать, к примеру, 32-процессорные системы в одном корпусе-узле. Пока этому мешает текущая версия модуля backplane, которой оснащается DGX-2, но архитектурного запрета на создание системы с теми же 32 вычислительными GPU нет. Точных данных о топологии DGX-2 пока нет, на имеющемся слайде видны по шесть «толстых» шин на каждую «половину» кластера. С учётом свободных портов, скорость «общения половин» между собой может достигать 6 Гбайт/с (3 Гбайт/с в каждую сторону). 

Из этого слайда топология DGX-2 не ясна

Из этого слайда топология DGX-2 не ясна

Были различные предположения о топологии, включая схему «двойное кольцо», но в худшем сценарии такая схема соединяет два ГП через шесть «скачков» (hops), а это не лучший вариант с точки зрения латентности. NVIDIA употребляет термин «fully connected crossbar internally» по отношению к NVSwitch, но не говорит этого про систему в целом и про соединение между двумя половинами DGX-2. Если предположить, что для соединения используется пара «верхних» портов коммутатора, то ГП могут быть соединены попарно, но тогда для полноценного соединения всей системы в единое целое потребуются иные механизмы, например, дополнительные соединения PCI Express, что выглядит не слишком осмысленным, если сравнить скорости PCIe и декларируемые NVIDIA цифры, относящиеся к NVLink.

Как оказалось впоследствии и было подтверждено официально, 12 «лишних» портов NVLink в NVSwitch не задействованы в DGX-2. Топология внутренней сети в новой системе проще, и каждый из шести портов в Volta соединён с одним из NVSwitch «сверху». Аналогичным образом подключается восьмёрка ГП «снизу». Такая схема позволяет добиться латентности в два «хопа» между двумя любыми ГП на одной «половине» системы, а если требуется коммуникация между разными половинами, то количество «хопов» увеличивается до трёх.

А так она выглядит на самом деле

А так она выглядит на самом деле

Разумеется, это не единственный сценарий: в данном варианте использовано всего 6 чипов NVLink для каждой половины, но ничто не мешает увеличить их число до, скажем, двенадцати. Новая система весьма эффективна: для демонстрации NVIDIA использовала пару серверов DGX-1 с 8 ГП Volta V100 в каждом. Они были соединены между собой четырьмя каналами InfiniBand с совокупной пропускной способностью 400 Гбит/с. Сравнительные тесты показали более чем двукратное (от 2,4 до 2,7x) превосходство системы DGX-2, использующей новые технологии с NVSwitch во главе.

DGX-2 ставит новые рекорды

DGX-2 ставит новые рекорды

Выглядит новая технология очень многообещающе, но интересно будет взглянуть, как она поведёт себя при увеличении количества вычислительных узлов, ведь модули DGX-2 придётся как-то соединять между собой, и не поглотит ли это все преимущества в случае постройки достаточно крупного кластера? Есть вариант NUMA, но практический предел, достигнутый на сегодня, составляет 128 процессоров; более того, после 32 процессоров в такой схеме критическую роль начинают играть очереди запросов и задержки. Как только DGX-2 начнёт поставляться массово, мы, скорее всего, узнаем ответ.

Постоянный URL: http://servernews.ru/968189
Система Orphus