Материалы по тегу: ethernet
23.11.2024 [12:38], Сергей Карасёв
Стартап Enfabrica выпустил чип ACF SuperNIC для ИИ-кластеров на базе GPUКомпания Enfabrica, занимающаяся разработкой инфраструктурных решений в сфере ИИ, объявила о доступности чипа Accelerated Compute Fabric (ACF) SuperNIC, предназначенного для построения высокоскоростных сетей в рамках кластеров ИИ на основе GPU. Кроме того, стартап провёл очередной раунд финансирования. Напомним, Enfabrica предлагает CXL-платформу ACF на базе ASIC собственной разработки, которая позволяет напрямую подключать друг к другу любую комбинацию GPU, CPU, DDR5 CXL и SSD, а также предоставляет 800GbE-интерконнект. Утверждается, что ACF SuperNIC может обеспечить улучшенную масштабируемость и производительность с более низкой совокупной стоимостью владения для распределённых рабочих нагрузок ИИ по сравнению с другими решениями, доступными на рынке. Изделие ACF SuperNIC (ACF-S) позволяет использовать от четырёх до восьми самых современных ускорителей в расчёте на серверную систему. Чип обеспечивает поддержку 800GbE, 400GbE и 100GbE, 32 сетевых портов и 160 линий PCIe. Благодаря этому становится возможным формирование ИИ-кластеров, насчитывающих более 500 тыс. GPU. Программный стек ACF-S поддерживает стандартные коммуникационные и сетевые операции RDMA через набор библиотек, совместимых с существующими интерфейсами. Фирменная технология Resilient Message Multipathing (RMM) повышает отказоустойчивость кластера ИИ и удобство обслуживания. RMM устраняет простои из-за сбоев и отказов сетевых соединений, повышая эффективность. Функция Collective Memory Zoning обеспечивает снижение задержек. Поставки чипов ACF SuperNIC начнутся в I квартале 2025 года. Что касается нового раунда финансирования, то по программе Series C привлечено $115 млн. Раунд возглавила фирма Spark Capital с участием новых инвесторов — Maverick Silicon и VentureTech Alliance. Кроме того, средства предоставили существующие инвесторы в лице Atreides Management, Sutter Hill Ventures, Alumni Ventures, IAG Capital и Liberty Global Ventures.
15.11.2024 [10:31], Сергей Карасёв
Eviden представила интерконнект BullSequana eXascale третьего поколения для ИИ-системКомпания Eviden (дочерняя структура Atos) анонсировала BullSequana eXascale Interconnect (BXI v3) — интерконнект третьего поколения, специально разработанный для рабочих нагрузок ИИ и HPC. Технология станет доступа на рынке во II половине 2025 года. Отмечается, что существующие высокоскоростные сетевые решения недостаточно эффективны, поскольку не устраняют критическое узкое место, известное как «сетевая стена». По заявлениям Eviden, зачастую при крупномасштабном обучении ИИ компании наращивают количество ускорителей, однако на самом деле ограничивающим фактором является интерконнект. Хотя поставщики сетевых решений продолжают удваивать пропускную способность каждые несколько лет, этого недостаточно для решения проблемы. В результате, до 70 % времени GPU простаивают, ожидая получения данных из-за задержек, утверждает Eviden. Технология BXI v3 призвана устранить этот недостаток. Новый интерконнект использует стандарт Ethernet в качестве базового протокола связи. При этом реализованы функции, которые обычно характерны для масштабируемых сетей высокого класса, таких как Infiniband. Отмечается, что BXI v3 обеспечивает низкие задержки (менее 200 нс от порта к порту), высокую пропускную способность, упорядоченную (in order) доставку пакетов, расширенное управление перегрузками и масштабируемость. Технология BXI v3 ляжет в основу интеллектуального сетевого адаптера (Smart NIC) нового поколения, который поможет снизить влияние задержек сети на GPU и CPU. При использовании такого решения ускоритель ИИ выгружает данные на сетевой адаптер и сразу же переходит к другим задачам, что устраняет неэффективность, связанную с простоями. Подчёркивается, что протокол BXI v3 интегрируется непосредственно в Smart NIC, благодаря чему оборудование работает сразу после установки, а в приложения не требуется вносить какие-либо изменения. Кроме того, новая технология предоставляет ряд дополнительных функций, ориентированных на повышение производительности путём оптимизации системных операций и обработки данных. В частности, BXI v3 обеспечивает прозрачную трансляцию виртуальных адресов в физические, что позволяет приложениям напрямую отправлять запросы в SmartNIC с использованием виртуальных адресов без необходимости системных вызовов. Такой подход повышает эффективность, обеспечивая бесперебойное управление памятью при сохранении высокой производительности. Технология BXI v3 также позволяет регистрировать до 32 млн приёмных буферов, которые SmartNIC выбирает с помощью ключей сопоставления на основе атрибутов сообщения. Благодаря этому уменьшается нагрузка на CPU, что повышает общую эффективность системы. Кроме того, сетевой адаптер способен выполнять математические атомарные операции, что дополнительно высвобождает ресурсы CPU. Впрочем, деталей пока мало, зато говорится об участии в консорциуме Ultra Ethernet (UEC) и партнёрстве с AMD.
21.10.2024 [13:21], Сергей Карасёв
Xsight Labs представила 400GbE DPU серии E1Компания Xsight Labs анонсировала, как утверждается, самую производительную на рынке программно-определяемую «систему на чипе» (SoC), предназначенную для создания DPU с поддержкой RoCEv2 и UET (Ultra Ethernet Transport). Изделие под названием E1 станет доступно заказчикам для тестирования во II квартале 2025 года. Чип будет предлагаться в модификациях E1-32 и E1-64. Первая содержит 32 ядра Arm Neoverse N2 v9.0-A, имеет 16 Мбайт кеша и использует конфигурацию памяти 2 × DDR5-5200. Показатель TDP равен 65 Вт. У второго варианта количество ядер составляет 64, размер конфигурируемого кеша/буфера — 32 Мбайт. Конфигурация памяти — 4 × DDR5-5200, величина TDP — 90 Вт. В обоих случаях используется полное шифрование памяти на лету (AES-XTS). Новинка использует до восьми блоков SerDes, обеспечивая сетевую пропускную способность до 800 Гбит/с. Возможны следующие конфигурации портов: 2 × 400GbE, 4 × 200GbE и 8 × 100/50/25/10GbE. Заявлена производительность на уровне 200 Mpps и 20 млн подключений в секунду. Также есть пара 1GbE-портов для внешнего управления. Доступны программируемые DMA-движки (до 3 Тбит/с) и разгрузка типовых операций, включая шифрование AES-GCM (для IPSec) и AES-XTS (для СХД) на лету. Есть восемь двухрежимных контроллеров и 40 (32+8) линий PCIe 5.0, а также поддержка P2P-коммутации PCIe. Упомянуты поддержка до четырёх хостов/устройств, SR-IOV (64K PF/VF), а также программная эмуляция и пространства MMIO. Реализована поддержка интерфейсов I2C/I3C/SMBus, SPI/QSPI, SMI, UART, GPIO, 1588 RTC, JTAG. Говорится о высоком уровне обеспечения безопасности: возможно создание изолированных и защищённых сред, которые аутентифицируют каждого клиента. Поддерживается функция безопасной загрузки UEFI Secure Boot with Arm Trusted Firmware (TF-A). Заявлена возможность работы «из коробки» в Debian, Ubuntu, SONiC и Lightbits Labs LightOS, а также совместимость с Netdev, VirtIO, XNA/XDP и DPDK/SPDK. В частности, возможна эмуляция NVMe-, RDMA- и сетевых устройств. Изделие E1 производится по 5-нм технологии TSMC. Оно, как утверждает Xsight Labs, обеспечивает беспрецедентную энергоэффективность и вычислительные возможности, устанавливая новый стандарт производительности для DPU SoC. Новинка ориентирована на облачные платформы и периферийные дата-центры, поддерживающие интенсивные ИИ-нагрузки. DPU позволяет создавать SDN/SDS-решения, брандмауэры, NVMe-oF СХД, вычислительные хранилища, CDN-платформы, балансировщики и т.п.
11.10.2024 [11:55], Сергей Карасёв
DPU + UEC: AMD представила 400G-адаптеры Pensando Salina и PollaraКомпания AMD анонсировала сетевой сопроцессор (DPU) третьего поколения Pensando Salina 400, а также сетевую карту Pensando Pollara 400, ориентированную на применение в составе ИИ-систем. Образцы изделий станут доступны заказчикам в текущем квартале, тогда как массовые продажи начнутся в I половине 2025 года. Решение Pensando Salina 400, рассчитанное на сетевые кластеры гиперскейлеров, обеспечивает пропускную способность до 400 Гбит/с. Утверждается, что по сравнению с DPU предыдущего поколения производительность увеличилась в два раза. Устройство Pensando Salina 400 выполнено в виде карты PCIe 5.0 с двумя портами 400GbE. Задействованы 16 ядер Arm Neoverse-N1 и 232 ядра P4 MPU. Объём памяти DDR5 достигает 128 Гбайт, её пропускная способность — 102 Гбайт/с. Новинка будет применяться в том числе в интеллектуальных коммутаторах, предназначенных для решения различных задач во внешней зоне: это может быть распределение данных, балансировка нагрузки, обеспечение безопасности, шифрование и пр. В свою очередь, Pensando Pollara 400 представляет собой интеллектуальный сетевой адаптер с одним портом 400 Гбит/с. Изделие выполнено на том же чипе, что и Pensando Salina 400. Компания AMD называет Pensando Pollara 400 первой в мире сетевой картой для приложений ИИ, соответствующей стандартам, которые определяет консорциум Ultra Ethernet (UEC). Примечательно, что первые спецификации консорциум намерен представить не раньше конца текущего года. Цель UEC — разработка основанной на Ethernet открытой высокопроизводительной архитектуры с полным коммуникационным стеком, отвечающей задачам современных рабочих нагрузок ИИ и НРС. Благодаря программируемой архитектуре P4 адаптер можно настраивать с учётом конкретных требований. В целом, как утверждается, новинка является мощным решением для повышения производительности рабочих нагрузок ИИ и улучшения надёжности сети.
09.09.2024 [17:39], Елена Копытова
Гигабиты сквозь бетон: Airvine Scientific представила Ethernet-мосты WaveCoreКомпания Airvine Scientific, специализирующаяся на беспроводных технологиях, представила систему WaveCore, которая позволяет передавать сетевые сигналы через толстые бетонные стены, устраняя необходимость в сверлении отверстий или прокладке кабелей по сложным маршрутам, передаёт The Register. Компания из Кремниевой долины утверждает, что система можно быстро развернуть, а сигнал может проникать через толстые бетонные стены и полы в коммерческих объектах недвижимости, что избавляет от необходимости долгого ожидания разрешения на сверление или прокладывания кабелей через лифты и шахты. WaveCore состоит из двух устройств, которые создают беспроводной мост, способный передавать данные через бетон толщиной до 30 см. В среднем стены коммерческих зданий достигают 20 см и более, говорит компания. Причём нередко такие стены являются несущими или используются для защиты важных помещений таких, как серверные или комнаты пожарной безопасности. Система WaveCore была разработана на основе существующего продукта WaveTunnel, который уже используется на заводах, складах, конференц-центрах и других крупных объектах. Задача заключалась в создании решения, которое могло бы обеспечивать передачу данных на скорости более 2 Гбит/с через бетон толщиной 30 см. Первые тесты у клиентов дали следующие результаты: 3 Гбит/с через 20 см бетона при использовании моста WaveCore в середине 16-метрового подключения и 4 Гбит/с через 30 см бетонной стены в середине подключения длиной 1,8 м. WaveCore использует направленные антенны, работающие в диапазоне 6 ГГц (ширина канала до 320 МГц), для передачи сигнала сквозь стену, а также связь Wi-Fi 5 (802.11b/g/n) для управления системой. Упомянуто шифрование WPA3-SAE (AES), но не уточняется, в каком диапазоне оно используется. Передача данных осуществляется через 1/2.5/5/10GbE-порт. Опционально доступен SFP+ порт. WaveCore потребляет 36 Вт и может питаться посредством PoE или от внешнего адаптера 12 В DC. Габариты устройства составляют 261 × 257 × 68 мм, масса — 1,8 кг. Устройство может работать при температуре от -20 °C до + 55 °C.
21.08.2024 [09:41], Сергей Карасёв
Nimbus Data представила ExaDrive EN — первый в мире многопротокольный Ethernet SSDКомпания Nimbus Data анонсировала накопители семейства ExaDrive EN с Ethernet-подключением: это, как утверждается, первые в мире многопротокольные U.2 SSD, поддерживающие NVMe-oF и NFS. Устройства ориентированы на поставщиков облачных услуг и операторов масштабных ИИ-платформ. Попытки создания SSD с Ethernet предпринимались и ранее, например, Kioxia представила накопители EM6 ещё в 2021 году. Но, как заявляет Nimbus Data, возможности таких изделий были ограничены. Отмечается, что предыдущие решения фактически представляли собой обычные NVMe SSD с конвертером NVMe-to-Ethernet на базе ASIC либо внутри самого накопителя, либо на внешнем адаптере. Nimbus Data заявляет, что такая схема сопряжена с нехваткой необходимого ПО и снижением вычислительной мощности. В результате подобные продукты предлагают лишь базовый блочный доступ, работают медленнее традиционных SSD и не могут в полной мере использовать возможности, которые предоставляет технология Ethernet. В устройствах Nimbus Data ExaDrive EN используется иной подход, говорит компания. В накопителях применяется SoC с архитектурой Arm, обеспечивающая вычислительные ресурсы для поддержки функций, выходящих за рамки простого блочного хранилища. Кроме того, Nimbus Data портировала на Arm свой софт HALO, создав тем самым «основу для интеллектуального Ethernet SSD с уникальными возможностями». То есть речь идёт уже о SmartSSD с сетевым интерфейсом. Среди ключевых особенностей ExaDrive EN названы встроенная поддержка протоколов NFS и NVMe/TCP, шифрование AES-256 и подсчёт контрольных сумм для автоматического устранения повреждений данных. Устройства соответствуют спецификации SNIA Native NVMe-oF Drive v1.1, что гарантирует совместимость с EBOF (Ethernet Bunch of Flash). В дальнейшем функциональность будет расширяться: станут доступны сжатие, поддержка параллельных файловых систем и S3-совместимого объектного хранилища. Используя устройства ExaDrive EN, организации могут задействовать дезагрегацию для создания более эффективной и масштабируемой инфраструктуры данных. Хосты подключаются к таким SSD с помощью клиентов NVMe-oF/TCP и NFS, поддержка которых есть в популярных ОС. Накопителями можно управлять и разделять их на виртуальные пространства имен с помощью веб-интерфейса HALO, CLI или RESTful API. Таким образом, при формировании масштабных хранилищ отпадает необходимость в приобретении дополнительных серверов, сетевых карт, коммутаторов и другого оборудования. В сочетании с масштабируемыми файловыми системами накопители ExaDrive EN можно объединить в единое глобальное пространство экзабайтного уровня. На первом этапе накопители ExaDrive EN будут доступны в версии вместимостью 16 Тбайт на основе флеш-памяти TLC: такие изделия поступят в продажу в IV квартале 2024 года. В 2025-м появятся варианты большей ёмкости.
17.07.2024 [11:01], Сергей Карасёв
2.5GbE в формате M.2: Cervoz выпустила крошечный адаптер MEC-LAN-2631iКомпания Cervoz анонсировала изделие MEC-LAN-2631i — миниатюрный сетевой адаптер 2.5GbE, ориентированный на применение в промышленной и коммерческой сферах. Изделие может монтироваться, например, во встраиваемые системы или индустриальные компьютеры. Новинка состоит из модуля формата M.2 2230, использующего интерфейс PCIe 2.1 x1 (до 5,0/2,5 GT/s). Этот модуль при помощи кабеля соединяется с крошечным блоком, оснащённым разъёмом RJ-45. Задействован контроллер Intel I226-IT: поддерживаются режимы 10/100/1000/2500MbE. Применяется универсальный монтажный механизм Cervoz MECFIX, разработанный для плат расширения MEC. Он совместим со стандартными и низкопрофильными планками PCI/PCIe. Кроме того, возможно крепление внутри системы в любом положении и под любым углом. Для решения MEC-LAN-2631i заявлена совместимость со стандартами IEEE 802.3, IEEE802.3u, IEEE 802.3ab, IEEE 802.3z и IEEE 802.3bz. Поддерживается функция Wake-on-LAN. Диапазон рабочих температур простирается от -40 до +85 °C. Cervoz предоставляет драйверы для Windows 10 и Windows 11, но, изделие также должно быть совместимо с Linux. Гарантия производителя — три года. Заявленное энергопотребление составляет примерно 1,16 Вт.
02.07.2024 [23:55], Алексей Степин
15 тыс. ускорителей на один ЦОД: Alibaba Cloud рассказала о сетевой фабрике, используемой для обучения ИИAlibaba Cloud раскрыла ряд сведений технического характера, касающихся сетевой инфраструктуры и устройства своих дата-центров, занятых обработкой ИИ-нагрузок, в частности, обслуживанием LLM. Один из ведущих инженеров компании, Эньнань Чжай (Ennan Zhai), опубликовал доклад «Alibaba HPN: A Data Center Network for Large Language Model Training», который будет представлен на конференции SIGCOMM в августе этого года. В качестве основы для сетевой фабрики Alibaba Cloud выбрала Ethernet, а не, например, InfiniBand. Новая платформа используется при обучении масштабных LLM уже в течение восьми месяцев. Выбор обусловлен открытостью и универсальностью стека технологий Ethernet, что позволяет не привязываться к конкретному вендору. Кроме того, меньше шансы пострадать от очередных санкций США. Отмечается, что традиционный облачный трафик состоит из множества относительно небыстрых потоков (к примеру, менее 10 Гбит/с), тогда как трафик при обучении LLM включает относительно немного потоков, имеющих периодический характер со всплесками скорости до очень высоких значений (400 Гбит/с). При такой картине требуются новые подходы к управлению трафиком, поскольку традиционные алгоритмы балансировки склонны к перегрузке отдельных участков сети. Разработанная Alibaba Cloud альтернатива носит название High Performance Network (HPN). Она учитывает многие аспекты работы именно с LLM. Например, при обучении важна синхронизация работы многих ускорителей, что делает сетевую инфраструктуру уязвимой даже к единичным точкам отказа, особенно на уровне внутристоечных коммутаторов. Alibaba Cloud использует для решения этой проблемы парные коммутаторы, но не в стековой конфигурации, рекомендуемой производителями. Каждый хост содержит восемь ИИ-ускорителей и девять сетевых адаптеров. Каждый из NIC имеет по паре портов 200GbE. Девятый адаптер нужен для служебной сети. Между собой внутри хоста ускорители общаются посредством NVLink на скорости 400–900 Гбайт/с, а для общения с внешним миром каждому из них полагается свой 400GbE-канал с поддержкой RDMA. При этом порты сетевых адаптеров подключены к разным коммутаторам из «стоечной пары», что серьёзно уменьшает вероятность отказа. В докладе говорится, что Alibaba Cloud использует современные одночиповые коммутаторы с пропускной способностью 51,2 Тбит/с. Этим условиям отвечают либо устройства на базе Broadcom Tomahawk 5 (март 2023 года), либо Cisco Silicon One G200 (июнь того же года). Судя по использованию выражения «начало 2023 года», речь идёт именно об ASIC Broadcom. Своё предпочтение именно одночиповых коммутаторов компания объясняет просто: хотя многочиповые решения с большей пропускной способностью существуют, в долгосрочной перспективе они менее надёжны и стабильны в работе. Статистика показывает, что аппаратные проблемы у подобных коммутаторов возникают в 3,77 раза чаще, нежели у одночиповых. Одночиповые решения класса 51,2 Тбит/с выделяют много тепла, но ни один поставщик оборудования не смог предложить Alibaba Cloud готовые решения, способные удерживать температуру ASIC в пределах 105 °C. Выше этого порога срабатывает автоматическая защита. Поэтому для охлаждения коммутаторов Alibaba Cloud создала собственное решение на базе испарительных камер. Сетевая фабрика позволяет создавать кластеры, каждый из которых содержит 15360 ускорителей и располагается в отдельном здании ЦОД. Такое высокоплотное размещение позволяет использовать оптические кабели длиной менее 100 м и более дешёвые многомодовые трансиверы, которые дешевле одномодовых примерно на 70 %. Ёмкость такого дата-центра составляет около 18 МВт. Но есть у HPN и недостаток: использование топологии с двумя внутристоечными коммутаторами и другие особенности архитектуры усложняют кабельную подсистему, поэтому инженеры поначалу столкнулись с ростом ошибок при подключении сетевых интерфейсов. В настоящее время активно используются тесты, позволяющие проверить каждое подключение на соответствие идентификаторов портов и коммутаторов рабочим схемам. Отмечается, что параметры Ethernet-коммутаторов удваиваются каждые два года, поэтому компания уже разрабатывает сетевую архитектуру следующего поколения, рассчитанную на применение будущих ASIC 102,4 Тбит/с. По словам Alibaba Cloud, обучение LLM с сотнями миллиардов параметров потребует огромного распределённого кластера, количество ускорителей в котором исчисляется миллионами. И ему требуется соответствующая сетевая инфраструктура.
02.07.2024 [12:10], Сергей Карасёв
Dell'Oro: продажи кампусных Ethernet-коммутаторов рухнули на 23 %По оценкам Dell'Oro Group, выручка от реализации кампусных Ethernet-коммутаторов в I квартале 2024 года в глобальном масштабе сократилась практически на четверть — на 23 % — по сравнению с аналогичным периодом предыдущего года. В результате объём рынка достиг двухлетнего минимума. Говорится, что снижение спроса зафиксировано во всех регионах, за исключением Центральной и Латинской Америки (CALA). Отмечается сокращение отгрузок портов практически всех типов. Кроме того, в годовом исчислении снизилась средняя стоимость коммутаторов. Среди ведущих игроков названы Arista Networks, Cisco и Ubiquiti. У первой из названных компаний выручка от поставок кампусных Ethernet-коммутаторов в I четверти 2024-го поднялась более чем на 80 % год к году. Третий квартал подряд Arista наращивает рыночную долю. Ubiquiti также смогла незначительно увеличить объём реализации. У Cisco продажи, напротив, резко сократились: падение в годовом исчислении превысило 25 %. Годом ранее Cisco продемонстрировала существенный рост, связанный с удовлетворением отложенного спроса. В исследовании отмечается, что некоторые поставщики кампусных Ethernet-коммутаторов в I квартале 2024 года смогли увеличить среднюю стоимость портов благодаря расширению ассортимента продукции. Прогнозируется, что спрос на устройства с поддержкой 5GbE-портов увеличится на фоне роста востребованности точек доступа стандарта Wi-Fi 7.
10.06.2024 [13:06], Сергей Карасёв
Разработчик СХД Qumulo присоединился к консорциуму Ultra EthernetКомпания Qumulo сообщила о вступлении в консорциум Ultra Ethernet Consortium (UEC), который был сформирован в июле 2023 года. Кроме того, Qumulo объявила о сотрудничестве с Intel и Arista Networks для продвижения передовых IT-инфраструктур, использующих современные сетевые технологии, а также средства хранения и управления данными. Группа Ultra Ethernet занимается разработкой открытой высокопроизводительной сетевой архитектуры с полным коммуникационным стеком, отвечающей задачам современных рабочих нагрузок ИИ и НРС. Основателями UEC стали AMD, Arista, Broadcom, Cisco, Eviden (Atos), HPE, Intel, Meta✴ и Microsoft. Впоследствии к группе присоединились многие другие компании, включая Nokia, Lenovo, Baidu, Dell, Huawei, IBM, Supermicro, Tencent и пр. В состав Ultra Ethernet Consortium также вошла Cornelis Networks, поставщик HPC-интерконнекта Omni-Path. А вот NVIDIA в UEC не входит. Qumulo, как отмечается, стала первым разработчиком хранилищ, присоединившимся к консорциуму Ultra Ethernet. Технический директор отмечает, что новые решения, разрабатывающиеся в рамках консорциума, в перспективе будут определять способы передачи данных по сетям, улучшая взаимодействие вычислительных систем и хранилищ информации. При этом станет возможным упрощение архитектуры при одновременном повышении производительности и надёжности. На сегодняшний день Qumulo развернула более 1 Эбайт хранилищ среди сотен клиентов, используя системы на базе Arista Extensible Operating System (EOS). Вице-президент по развитию бизнеса и стратегическим альянсам Arista Networks говорит о том, что участие Qumulo в Ultra Ethernet Consortium будет способствовать ускорению внедрения новых технологий. Ожидается, что результаты работы группы помогут в развёртывании высокопроизводительных и масштабируемых сетей для современных приложений, связанных в том числе с ИИ. |
|