Компания Dell в ходе мероприятия 2025 OCP Global Summit рассказала о разработке передовых систем для ресурсоёмких нагрузок ИИ и HPC. Речь идёт, в частности, о полностью модульных архитектурах на базе открытых спецификаций, оптимизированных для жидкостного охлаждения.
Ихаб Тарази (Ihab Tarazi), главный технический директор и старший вице-президент Dell Technologies, сообщил, что компания установила сотни тысяч GPU-ускорителей в кластерах, использующих оборудование на основе стандарта OCP ORv3. Благодаря достижениям в области водоблоков, термоинтерфейсов, блоков распределения охлаждающей жидкости (CDU) и быстроразъёмных коллекторов упрощается развёртывание масштабных ИИ-платформ, насчитывающих десятки тысяч GPU.
Кроме того, Dell совместно с Национальной лабораторией имени Лоуренса в Беркли (LBNL) при Министерстве энергетики США (DoE) разработала модульную OCP-стойку мощностью 480 кВт с возможностью дальнейшего масштабирования до 1 МВт. Решение, ориентированное на экстремальные нагрузки ИИ, допускает установку высокопроизводительных серверов, насчитывающих в общей сложности до 27 тыс. CPU-ядер и до 144 ускорителей NVIDIA GB200.
В перспективе также могут использоваться чипы AMD и NVIDIA следующего поколения, такие как Instinct MI450 и Vera Rubin. По словам Тарази, аналогичная архитектура стоек применяется в рамках суперкомпьютерной программы Техасского университета в Остине (UT Austin) и при развёртывании суверенных облаков.
В целом, модульный подход обеспечивает возможность независимой модернизации вычислительных ресурсов, хранилищ и сетевых компонентов, сокращая время обновления инфраструктуры с нескольких лет до нескольких недель. Инновации в сфере СЖО повышают надёжность и удобство обслуживания платформ в рамках масштабных ИИ-кластеров.
Источник:
