Материалы по тегу: infiniband
05.12.2022 [21:54], Алексей Степин
InfiniBand между ЦОД: NVIDIA представила третье поколение систем высокоскоростной связи MetroX-3 XCСети на основе InfiniBand традиционно используются в HPC-системах для связи в единое целое вычислительных узлов. Обычно речь идёт об организации сети в одном помещении, либо здании ЦОД, но иногда возникает нужда в высокоскоростной связи между кампусами, расположенными на расстоянии до десятков километров. Для решения этой задачи предназначена новое решение NVIDIA MetroX-3 XC. Сама платформа была разработана ещё в бытность Mellanox независимой компанией, но платформа MetroX-2 была ограничена двумя внешними линками со скоростью 100 Гбит/с, работающими на дальности до 40 км, и россыпью локальных 200G-портов. Новая итерация платформы получила два внешних 100G-порта и два локальных 400G-порта. Используются новые модули со спектральным уплотнением каналов (DWDM). Физическая реализация использует 4 порта QSFP112 для данных и 2 аналогичных порта для управляющих целей. ![]() Схема работы MetroX-3 (Источник: NVIDIA) Разумеется, функционирует MetroX-3 XC в рамках экосистемы NVIDIA InfiniBand: она призвана работать совместно с коммутаторами Quantum-2, сетевыми адаптерами ConnectX-7 и DPU BlueField. Доступно два варианта, MTQ8400-HS2R и MTQ8400-HS2RC; последний отличается наличием шифрования сетевого трафика. Новая платформа связи MetroX совместима с фреймворком Holoscan HPC и может служить для соединения систем NVIDIA IGX, DGX и HGX.
22.11.2022 [00:00], Владимир Мироненко
Microsoft Azure анонсировала первые HPC-инстансы с AMD EPYC Genoa и InfiniBand NDR: HBv4 и HXОблачный провайдер Microsoft Azure анонсировал инстансы новых серий HBv4 и HX, оптимизированные для различных задач высокопроизводительных вычислений (HPC), таких как вычислительная гидродинамика (CFD), анализ методом конечных элементов, автоматизация проектирования электроники (EDA), визуализация, молекулярная динамика, геофизические исследования, моделирование погоды, ИИ-инференс, анализ финансовых рисков и т.д. Спецификации новых ВМ:
Ниже приведены предварительные тесты производительности инстансов серий HBv4 и HX с процессорами EPYC Genoa в нескольких распространенных приложениях и областях HPC в сравнении с инстансами HBv3 прошлого поколения с процессорами Milan-X, а также усреднённым 4-летним HPC-сервером на базе Intel Xeon Skylake-SP (на примере инстансов серии Azure HC). Инстансы Azure HBv3 с процессорами AMD EPYC Milan-X с технологией 3D V-Cache уже обеспечивают высокий уровень производительности HPC, предлагая до 27 раз лучшее масштабирование MPI-нагрузок, чем в других облаках, и превосходя многие ведущие суперкомпьютеры в мире. С внедрением серии HBv4 компания поднимает планку, предлагая лучшую поддержку для массивно-параллельных нагрузок и для нагрузок с интенсивным использование памяти и вычислений. Инстансы Azure HBv3 также активно используется для EDA-нагрузок, но новые инстансы серии HX предлагают до 3 раз больший объём оперативной памяти, чем любая виртуальная машина серии H прошлых поколений — до 60 Гбайт RAM на ядро. Отдельно стоит отметить, что в инстансах HBv4 и HX впервые в Azure используется 400G-интерконнект NVIDIA InfiniBand NDR (Quantum-2). Инстансы с суффиксом r также предлагают поддержку RDMA, а с суффиксом s — поддержку быстрых локальных SSD. Используя новые инстансы серии HBv4 или HX и стандартный инструмент управления набором инстансов Azure VMSS, клиенты смогут масштабировать MPI-нагрузки вплоть до уровня 50 000 CPU-ядер на задачу. HBv4 и HX скоро появятся в облачных регионах США (East US, South Central US, West US3) и Западной Европе (West Europe).
09.11.2021 [12:17], Алексей Степин
NVIDIA представила Quantum-2, первый 400G-коммутатор InfiniBand NDRNVIDIA, нынешний владелец Mellanox, представила обновления своих решений InfiniBand NDR: коммутаторы Quantum-2, сетевые адаптеры ConnectX-7 и ускорители DPU BlueField-3. Это весьма своевременный апдейт, поскольку 400GbE-решения набирают популярность, а с приходом PCIe 5.0 в серверный сегмент станут ещё более актуальными. Первый и самый важный анонс — это платформа Quantum-2. Новый коммутатор не только обеспечивает вдвое более высокую пропускную способность на порт (400 Гбит/с против 200 Гбит/c), но также предоставляет в три раза больше портов, нежели предыдущее поколение. Это сочетание позволяет снизить потребность в коммутаторах в 6 раз при той же суммарной ёмкости сети. При этом новая более мощная инфраструктура также окажется более экономичной и компактной. ![]() NVIDIA Quantum-2 (Здесь и ниже изображения NVIDIA) Более того, Quantum-2 относится к серии «умных» устройств и содержит в 32 раза больше акселераторов, нежели Quantum HDR первого поколения. В нём также реализована предиктивная аналитика, позволяющая избежать проблем с сетевой инфраструктурой ещё до их возникновения; за это отвечает технология UFM Cyber-AI. Также коммутатор предлагает синхронизацию времени с наносекундной точностью, что важно для распределённых нагрузок. ![]() 7-нм чип Quantum-2 содержит 57 млрд транзисторов, то есть он даже сложнее A100 с 54 млрд транзисторов. В стандартной конфигурации чип предоставляет 64 порта InfiniBand 400 Гбит/с, однако может работать и в режиме 128 × 200 Гбит/с. Коммутаторы на базе нового сетевого процессора уже доступны у всех крупных поставщиков серверного оборудования, включая Inspur, Lenovo, HPE и Dell Technologies. Возможно масштабирование вплоть 2048 × 400 Гбит/с или 4096 × 200 Гбит/с. ![]() NVIDIA ConnectX-7 Конечные устройства для новой инфраструктуры InfiniBand доступны в двух вариантах: это относительно простой сетевой адаптер ConnectX-7 и куда более сложный BlueField-3. В первом случае изменения, в основном, количественные: новый чип, состоящий из 8 млрд транзисторов, позволил вдвое увеличить пропускную способность, равно как и вдвое же ускорить RDMA и GPUDirect. ![]() NVIDIA BlueField-3 DPU BlueField-3, анонсированный ещё весной этого года, куда сложнее с его 22 млрд транзисторов. Он предоставляет гораздо больше возможностей, чем обычный сетевой адаптер или SmartNIC, и крайне важен для будущего развития инфраструктурных решений NVIDIA. Начало поставок ConnectX-7 намечено на январь, а вот BlueField-3 появится только в мае 2021 года. Оба адаптера совместимы с PCIe 5.0.
28.06.2021 [13:22], Алексей Степин
Обновление NVIDIA HGX: PCIe-вариант A100 с 80 Гбайт HBM2e, InfiniBand NDR и Magnum IO с GPUDirect StorageНа суперкомпьютерной выставке-конференции ISC 2021 компания NVIDIA представила обновление платформы HGX A100 для OEM-поставщиков, которая теперь включает PCIe-ускорители NVIDIA c 80 Гбайт памяти, InfiniBand NDR и поддержку Magnum IO с GPUDirect Storage. В основе новинки лежат наиболее продвинутые на сегодняшний день технологии, имеющиеся в распоряжении NVIDIA. В первую очередь, это, конечно, ускорители на базе архитектуры Ampere, оснащённые процессорами A100 с производительностью почти 10 Тфлопс в режиме FP64 и 624 Топс в режиме тензорных вычислений INT8. ![]() HGX A100 предлагает 300-Вт версию ускорителей с PCIe 4.0 x16 и удвоенным объёмом памяти HBM2e (80 Гбайт). Увеличена и пропускная способность (ПСП), в новой версии ускорителя она достигла 2 Тбайт/с. И если по объёму и ПСП новинки догнали SXM-версию A100, то в отношении интерконнекта они всё равно отстают, так как позволяют напрямую объединить посредством NVLink только два ускорителя. В качестве сетевой среды в новой платформе NVIDIA применена технология InfiniBand NDR со скоростью 400 Гбит/с. Можно сказать, что InfiniBand догнала Ethernet, хотя не столь давно её потолком были 200 Гбит/с, а в плане латентности IB по-прежнему нет равных. Сетевые коммутаторы NVIDIA Quantum 2 поддерживают до 64 портов InfiniBand NDR и вдвое больше для скорости 200 Гбит/с, а также имеют модульную архитектуру, позволяющую при необходимости нарастить количество портов NDR до 2048. Пропускная способность при этом может достигать 1,64 Пбит/с. ![]() Технология NVIDIA SHARP In-Network Computing позволяет компании заявлять о 32-крантом превосходстве над системами предыдущего поколения именно в области сложных задач машинного интеллекта для индустрии и науки. Естественно, все преимущества машинной аналитики используются и внутри самого продукта — технология UFM Cyber-AI позволяет новой платформе исправлять большинство проблем с сетью на лету, что минимизирует время простоя. Отличным дополнением к новым сетевым возможностями является технология GPUDirect Storage, которая позволяет NVMe-накопителям общаться напрямую с GPU, минуя остальные компоненты системы. В качестве программной прослойки для обслуживания СХД новая платформа получила систему Magnum IO с поддержкой вышеупомянутой технологии, обладающую низкой задержкой ввода-вывода и по максимуму способной использовать InfiniBand NDR. ![]() Три новых ключевых технологии NVIDIA помогут супервычислениям стать ещё более «супер», а суперкомпьютерам следующего поколения — ещё более «умными» и производительными. Достигнуты договорённости с такими крупными компаниями, как Atos, Dell Technologies, HPE, Lenovo, Microsoft Azure и NetApp. Решения NVIDIA используются как в индустрии — в качестве примера можно привести промышленный суперкомпьютер Tesla Automotive, так и в ряде других областей. ![]() В частности, фармакологическая компания Recursion использует наработки NVIDIA в области машинного обучения для поиска новых лекарств, а национальный научно-исследовательский центр энергетики (NERSC) применяет ускорители A100 в суперкомпьютере Perlmutter при разработке новых источников энергии. И в дальнейшем NVIDIA продолжит своё наступление на рынок HPC, благо, она может предложить заказчикам как законченные аппаратные решения, так и облачные сервисы, также использующие новейшие технологии компании.
16.11.2020 [17:00], Игорь Осколков
SC20: NVIDIA анонсировала InfiniBand NDR: 400 Гбит/c адаптерам уже нужен PCIe 5.0Вместе с обновлёнными ускорителями A100 и продуктами на его основе NVIDIA анонсировала и решения на базе стандарта InfiniBand NDR который, как и положено, удваивает пропускную способность одной линии до 100 Гбит/с. Новые адаптеры и DPU NVIDIA получат порты 400 Гбит/c, а коммутаторы — 64 порта 400 Гбит/с или 128 портов 200 Гбит/c, способных обработать 66,5 млрд пакетов в секунду. Модульные коммутаторы позволят получить до 2048 портов с суммарной пропускной способностью 1,64 Пбит/с. Кроме того, повышена масштабируемость сети, которая способна объединить более миллиона GPU всего с тремя «прыжками» (hops) между любыми из них. А с ростом числа узлов снижаются и стоимость владения, и энергопотребление, что будет важно для суперкомпьютеров экзафплосного класса. Компания отдельно отмечает, что для InfiniBand NDR удалось сохранить возможность использования пассивных медных кабелей на коротких расстояниях (до 1,5 м). Помимо увеличения пропускной способности, вчетверо повышена производительность MPI, за что отвечают отдельные аппаратные движки. А ИИ-приложения могут получить дополнительное ускорение благодаря технологии Mellanox SHARP (Scalable Hierarchical Aggregation and Reduction Protocol). DPU же за счёт наличия ядер общего назначения могут взять на себя часть обработки данных и попутно отвечать за безопасность, изоляцию, мониторинг и управление инфраструктурой. Вообще NVIDIA говорит о распределённом CPU, «живущем» в сети, который эффективно дополняет ускорители компании. Однако у InfiniBand NDR, как и у конкурирующего стандарта 400GbE, есть и обратная сторона медали. Для новых адаптеров требуются или 16 линий PCIe 5.0, или 32 линии PCIe 4.0. PCIe 5.0 будет доступен ещё нескоро, а линии PCIe 4.0 в современных системах жаждут не только адаптеры, но и накопители, и собственно ускорители. Использование PCIe-свитчей может снизить эффективность обмена данными, так что, вероятно, интереснее всего было бы увидеть DPU с root-комплексами, да покрупнее. Первые продукты на базе нового стандарта должны появиться в втором квартале 2021 года.
22.04.2020 [20:04], Алексей Степин
IBTA опубликовала спецификации InfiniBand 1.4Несмотря на победное шествие Ethernet, другая популярная сетевая архитектура, InfiniBand, сдаваться не собирается и продолжает активно развиваться. Ассоциация IBTA (InfiniBand Trade Association) объявила о ширкой доступности новых спецификаций InfiniBand, имеющих номер версии 1.4. ![]() Mellanox InfiniHost III: пример раннего InfiniBand: медные кабели CX4 и собственный кеш на борту Исторически Ethernet как сетевая архитектура не всегда была на лидирующих позициях. Благодаря более высоким скоростям и существенно меньшему уровню задержек технологии InfiniBand удалось стать самой популярной в среде суперкомпьютеров и кластерных систем. Даже в 2001 году одна линия InfiniBand могла дать 2 Гбит/с. В 2014 году с внедрением стандарта EDR этот показатель достиг 25 Гбит/с на линию, а опубликованный в 2017 году стандарт HDR поднял скорость ещё в два раза, до 50 Гбит/с. Это даёт 200 и 600 Гбит/с при 4 и 12 линиях, соответственно, но Ethernet тем временем покорила барьер 400 Гбит/с и уже вовсю штурмуется планка 800 Гбит/с и подготавливается плацдарм для 1600 Гбит/с. ![]() Mellanox ConnectX-3 сделала InfiniBand действительно популярной и универсальной сетевой технологией Тем не менее, InfiniBand всё ещё популярна и развитие технологии продолжается. Организация, отвечающая за развитие стандарта, InfiniBand Trade Association 21 апреля опубликовала два новых тома спецификаций InfiniBand — Specification Volume 1 Release 1.4 и Volume 2 Release 1.4. Первый том содержит всю необходимую информацию о ядре архитектуры IB и описывает работу сетевых адаптеров, коммутаторов и маршрутизаторов, тогда как второй том посвящён электрическим и механическим спецификациям InfiniBand. Версия 1.4 описывает стандарт со скоростью 100 Гбит/с на линию, сигнальный формат PAM-4 и прямую коррекцию ошибок, позволяющую обеспечить ещё более быстрое и надёжное соединение между узлами IB. Помимо конфигураций 4х и 12х появился новый вариант 2х. ![]() Коммутаторы с поддержкой 40 Гбит/с InfiniBand сегодня доступны даже энтузиастам-одиночкам — их можно приобрести менее чем за $100 В новых спецификациях описаны также новые методы QoS и ускорения телеметрии, в частности, мониторинга состояния сетевых портов. Оба тома доступны для скачивания на сайте IBTA, но для их получения требуется бесплатная регистрация. Отметим, что конкуренцию InfiniBand сегодня может составить не столько Ethernet, сколько PCI Express.
07.04.2020 [00:42], Алексей Степин
PNY 3S-2400: быстрая СХД для систем глубокого обученияИмя PNY хорошо знакомо энтузиастам 3D-графики, поскольку компания известна профессиональными ускорителями и системами на базе графических процессоров Quadro и других решений NVIDIA. А на днях компания анонсировала новый сервер хранения данных 3S-2400, предназначенный, главным образом, для использования именно в комплексах машинного обучения. Такие задачи требуют не только вычислительных возможностей, но и хранения солидных объёмов данных с предоставлением быстрого к ним доступа. Нехватки вычислительной мощности у систем NVIDIA DGX-1 не наблюдается, а PNY 3S-2400 призван ликвидировать возможное «бутылочное горлышко» в части хранения и доступа к данным, используемым для тренировки нейросетей. В разработке нового сервера принимал участие один из пионеров в области программно определяемых систем хранения данных, Марк Кларзински (Mark Klarzynski), автор идеи массивов, полностью реализованных на флеш-памяти. ![]() Панель управления NVMesh С аппаратной точки зрения PNY 3S-2400 использует технологию RDMA, позволяющую минимизировать время отклика СХД до менее чем 90 микросекунд, а программная часть реализована на базе технологий Excelero NVMesh. Интерфейс у нового сервера реализован в виде двух каналов InfiniBand EDR со скоростью 100 Гбит/с. ![]() Всего с четырьмя накопителями 3S-2400 может обеспечить линейные скорости порядка 12 Гбайт/с, а случайные — свыше 2 миллионов IOPS. С восемью накопителями линейная скорость повышается до 23 Гбайт/с. ![]() Варианты поставки PNY 3S-2400 Масштабируется система очень просто: количество NVMe-накопителей можно увеличить до 24, что в пределе даёт 32 Тбайт для хранения данных. Но это не предел, поскольку реализована возможность установки дополнительных дисковых полок; правда, такая конфигурация уже потребует наличия коммутатора InfiniBand, тогда как единичная платформа может подключаться к DGX-1 напрямую. ![]() Помимо IB, программный стек NVMesh поддерживает и NVMe over Ethernet, а также предоставляет удобную систему мониторинга активности PNY 3S-2400. Система сопровождается трёхлетней гарантией производителя с расширенной технической поддержкой.
15.11.2019 [15:31], Алексей Степин
Mellanox Skyway: шлюз между InfiniBand и EthernetСетевая инфраструктура InfiniBand очень популярна в среде разработчиков суперкомпьютерных систем и кластеров, но иногда возникает необходимость обеспечения связи с другой системой, построенной на базе Ethernet. Специально для таких случаев компания Mellanox анонсировала новые шлюзы Skyway, способные служить посредником между сетями InfiniBand HDR (200 Гбит/с) и Ethernet того же класса. ![]() Новый Skyway является развитием уже существующей серии шлюзов Mellanox, обеспечивающих соединение между InfiniBand FDR (56 Гбит/с) и 40GbE Ethernet. Его пропускная способность составляет 1,6 Тбит/с на каждой из «сторон» Ethernet и Infiniband, имеется по восемь портов, способных работать на скоростях 100 или 200 Гбит/с. Компания гарантирует минимальную латентность при использовании нового решения. ![]() Шлюз довольно компактен: он занимает стандартный корпус 2U, основой системы являются процессоры Xeon Scalable. Сетевая часть представлена восемью двухпортовыми адаптерами ConnectX-6 VPI. В будущем возможна модернизация для поддержки скорости 400 Гбит/с. За питание системы отвечает пара блоков питания класса 8 Plus Platinum. Платформа работает под управлением фирменной ОС MLNX-GW, для управления используется фирменное ПО Unified Fabric Manager (UFM). Детально рассказать о новой шлюзовой платформе компания планирует на конференции SC19.
01.11.2019 [17:19], Сергей Юртайкин
Mellanox получила рекордную выручкуКомпания Mellanox Technologies, специализирующаяся на производстве чипов и оборудования для высокоскоростных сетей, завершила третий квартал с растущими доходами. Выручка Mellanox в июле–сентябре 2019 года достигла 335,3 млн долларов, что на 20,1 % больше по сравнению с аналогичным периодом 2018-го. Чистая прибыль за это время повысилась с 37,1 до 44,2 млн долларов. ![]() Президент и генеральный директор Mellanox Эял Уолдман (Eyal Waldman) говорит, что компания зафиксировала рекордные показатели выручки и денежного потока от основной деятельности, а также показала рост во всех продуктовых категориях. Например, продажи Ethernet-адаптеров поднялись на 28 % в сравнении от к квартала к кварталу. В прошлом отчётном квартале Mellanox выпустила сетевые карты ConnectX-6 Dx с интерфейсом PCIe 4.0, обеспечивающие передачу данных на скорости до 200 Гбит/c. Основным конкурентом в этом сегменте является Broadcom. «Мы также наблюдаем активное внедрение наших Ethernet-коммутаторов в самых разных проектах дата-центров, в том числе на рынках гипермасштабируемых, облачных и СХД-решений, а также финансы. Это привело к 25-процентному росту продаж оборудования относительно предыдущего квартала», — отметил Уолдман. Напомним, что в марте этого было объявлено, что NVIDIA купит Mellanox за почти $7 млрд.
10.03.2019 [22:40], Илья Гавриченков
NVIDIA собралась побороться с Intel за покупку компании MellanoxСогласно сообщению информационного агентства Reuters, компания NVIDIA приняла решение включиться в борьбу за покупку Mellanox – крупного производителя телекоммуникационного оборудования. Из информации, которая циркулировала в отрасли ранее, следовало, что наиболее вероятным кандидатом на покупку Mellanox выступает Intel, которая предлагала заплатить в рамках сделки 6 млрд долларов, но NVIDIA решила перебить ставку микропроцессорного гиганта, предложив сумму как минимум на 10 % выше. Стоит напомнить, что Mellanox приняла решение выставить себя на продажу в октябре 2018 года, и к покупке этой компании успели проявить интерес и другие крупные игроки, например, Microsoft и Xilinx. ![]() Mellanox – израильская компания с капитализацией $5,93 млрд, которая специализируется на сетевых продуктах для центров обработки данных и занимает доминирующее положение как производитель оборудования для сетей Infiniband. Именно по этой причине с покупкой Mellanox могут возникнуть проблемы у Intel. В 2012 году микропроцессорный гигант приобрёл интеллектуальную собственность фирмы QLogic, что позволило ему разработать собственный модельный ряд контроллеров и сетевых коммутаторов Infiniband и стать единственным значимым конкурентом Mellanox. А это значит, что сделке Intel и Mellanox могут воспротивиться регуляторы США и Китая. Одобрение сделки с NVIDIA представляется более беспроблемным мероприятием. Кроме того, Mellanox может вполне органично вписаться в бизнес NVIDIA: производитель GPU остро нуждается в диверсификации своей деятельности и сокращении зависимости от нестабильных продаж видеокарт. При этом Mellanox неплохо ложится и на взятый NVIDIA курс на покорение рынка оборудования для центров обработки данных. ![]() Впрочем, интерес Intel к Mellanox тоже возник не на пустом месте. Сетевое оборудование Infiniband является ключевым компонентом в сфере суперкомпьютеров и дата-центров, и прибрав к рукам его разработку и производство, Intel может получить существенное преимущество перед конкурентами как поставщик полнофункциональных высокопроизводительных серверных платформ. Расширение сферы интересов в сторону высокоскоростного сетевого оборудования также вписывается и в стратегию Intel по собственной трансформации из компании, построенной вокруг ПК, в компанию более широкого профиля, интересующуюся многими смежными направлениями, включая сети 5G, системы хранения данных, искусственный интеллект и, в числе прочего, высокопроизводительные вычисления (HPC). На данный момент неизвестно, будет ли Intel продолжать бороться за Mellanox после того, как NVIDIA решила поднять ставки. Также нельзя отметать и возможность того, что в развернувшееся соревнование не включится и какой-нибудь третий участник, например, Microsoft. |
|