Материалы по тегу: nvidia

05.08.2024 [08:16], Сергей Карасёв

Новые кластеры Supermicro SuperCluster с ускорителями NVIDIA L40S ориентированы на платформу Omniverse

Компания Supermicro расширила семейство высокопроизводительных вычислительных систем SuperCluster, предназначенных для обработки ресурсоёмких приложений ИИ/HPC. Представленные решения оптимизированы для платформы NVIDIA Omniverse, которая позволяет моделировать крупномасштабные виртуальные миры в промышленности и создавать цифровых двойников.

Системы SuperCluster for NVIDIA Omniverse могут строиться на базе серверов SYS-421GE-TNRT или SYS-421GE-TNRT3 с поддержкой соответственно восьми и четырёх ускорителей NVIDIA L40S. Обе модели соответствуют типоразмеру 4U и допускают установку двух процессоров Intel Xeon Emerald Rapids или Sapphire Rapids в исполнении Socket E (LGA-4677) с показателем TDP до 350 Вт (до 385 Вт при использовании СЖО).

Каждый из узлов в составе новых систем SuperCluster несёт на борту 1 Тбайт оперативной памяти DDR5-4800, два NVMe SSD вместимостью 3,8 Тбайт каждый и загрузочный SSD NVMe M.2 на 1,9 Тбайт. В оснащение включены четыре карты NVIDIA BlueField-3 (B3140H SuperNIC) или NVIDIA ConnectX-7 (400G NIC), а также одна карта NVIDIA BlueField-3 DPU Dual-Port 200G. Установлены четыре блока питания с сертификатом Titanium мощностью 2700 Вт каждый.

В максимальной конфигурации система SuperCluster for NVIDIA Omniverse объединяет пять стоек типоразмера 48U. В общей сложности задействованы 32 узла Supermicro SYS-421GE-TNRT или SYS-421GE-TNRT3, что в сумме даёт 256 или 128 ускорителей NVIDIA L40S.

 Источник изображения: Supermicro

Источник изображения: Supermicro

Кроме того, в состав такого комплекса входят три узла управления Supermicro SYS-121H-TNR Hyper System, три коммутатора NVIDIA Spectrum SN5600 Ethernet 400G с 64 портами, ещё два коммутатора NVIDIA Spectrum SN5600 Ethernet 400G с 64 портами для хранения/управления, два коммутатора управления NVIDIA Spectrum SN2201 Ethernet 1G с 48 портами.

При необходимости конфигурацию SuperCluster for NVIDIA Omniverse можно оптимизировать под задачи заказчика, изменяя масштаб вплоть до одной стойки. В этом случае применяются четыре узла Supermicro SYS-421GE-TNRT или SYS-421GE-TNRT3.

Постоянный URL: http://servernews.ru/1108962
04.08.2024 [15:25], Сергей Карасёв

В Google Cloud появился выделенный ИИ-кластер для стартапов Y Combinator

Облачная платформа Google Cloud, по сообщению TechCrunch, развернула выделенный субсидируемый кластер для ИИ-стартапов, которые поддерживаются венчурным фондом Y Combinator. Предполагается, что данная инициатива поможет Google привлечь в своё облако перспективные компании, которым в будущем могут понадобиться значительные вычислительные ресурсы.

Отмечается, что для ИИ-стартапов на ранней стадии одной из самых распространённых проблем является ограниченная доступность вычислительных мощностей. Крупные предприятия обладают достаточными финансами для заключения многолетних соглашений с поставщиками облачных услуг на доступ к НРС/ИИ-сервисам. Однако у небольших фирм с этим возникают сложности. Ожидается, что Google Cloud поможет в решении данной проблемы.

Google предоставит выделенный кластер с приоритетным доступом для стартапов Y Combinator. Платформа базируется на ускорителях NVIDIA и тензорных процессорах (TPU) самой Google. Каждый участник программы получит кредиты на сумму $350 тыс. для использования облачных сервисов Google в течение двух лет. Кроме того, Google предоставит стартапам кредиты в размере $12 тыс. на расширенную поддержку и бесплатную годовую подписку Google Workspace Business Plus. Молодые компании также смогут консультироваться с экспертами Google в области ИИ.

 Источник изображения: Google

Источник изображения: Google

Оказав поддержку ИИ-стартапам, Google в дальнейшем сможет рассчитывать на заключение с ними долгосрочных контрактов на обслуживание. Говорится, что за последние 18 лет примерно 5 % стартапов Y Combinator стали единорогами с оценкой $1 млрд и более. Такие компании могут принести облачной платформе Google значительную выручку в случае заключения соглашения о сотрудничестве. С другой стороны, фонд Y Combinator сможет привлечь больше перспективных ИИ-проектов, предлагая вычислительные ресурсы Google вместе со своей поддержкой.

Аналогичные программы есть и у других игроков. Так, венчурный инвестор Andreessen Horowitz (a16z) тоже запасается ИИ-ускорителями, чтобы стать более привлекательным для ИИ-стартапов. AWS предлагает ИИ-стартапам доступ к облаку и сервисам, а Alibaba Cloud готова предоставить ресурсы в обмен на долю в стартапе. Сама Google на днях наняла основателей стартапа Character.AI и лицензировал его модели. Стартапу, по-видимому, не хватило средств на ИИ-ускорители для дальнейшего развития.

Постоянный URL: http://servernews.ru/1108963
01.08.2024 [15:32], Руслан Авдеев

У Twitter нашёлся заброшенный кластер из когда-то дефицитных NVIDIA V100

Работавший в Twitter во времена продажи социальной сети Илону Маску (Elon Musk) разработчик Тим Заман (Tim Zaman), ныне перешедший в Google DeepMind, рассказал о необычной находке, передаёт Tom’s Hardware. По его словам, через несколько недель после сделки специалисты обнаружили кластер из 700 простаивающих ускорителей NVIDIA V100. Сам Заман охарактеризовал находку как «честную попытку построить кластер в рамках Twitter 1.0». Об этом событии Заману напомнили новости про ИИ-суперкомпьютер xAI из 100 тыс. ускорителей NVIDIA H100.

Находка наводит на печальные размышления о том, что Twitter годами имел в распоряжении 700 высокопроизводительных ускорителей на архитектуре NVIDIA Volta, которые были включены, но простаивали без дела. Они были в дефиците на момент выпуска в 2017 году, а Заман обнаружил бездействующий кластер только в 2022 году. Нет ничего удивительного, что приблизительно тогда же было решено закрыть часть дата-центров социальной сети. Примечательно, что в кластере использовались PCIe-карты, а не SXM2-версии V100 с NVLink, которые намного эффективнее в ИИ-задачах.

 Источник изображения: Alexander Shatov/unsplash.com

Источник изображения: Alexander Shatov/unsplash.com

Заман поделился и соображениями об «ИИ-гигафабрике». Он предположил, что использование 100 тыс. ускорителей в рамках одной сетевой фабрики должно стать эпическим вызовом, поскольку на таких масштабах неизбежны сбои, которыми необходимо грамотно управлять для сохранения работоспособности всей системы. По его мнению, следует разделить систему на независимые домены (крупные кластеры так и устроены). Заман также задался вопросом, какое максимальное количество ускорителей может существовать в рамках одного кластера. По мере того, как компании создают всё более масштабные системы обучения ИИ, будут выявляться как предсказуемые, так и неожиданные пределы того, сколько ускорителей можно объединить.

Постоянный URL: http://servernews.ru/1108823
31.07.2024 [17:46], Руслан Авдеев

Появление NVIDIA Blackwell приведёт к увеличению доли СЖО в ЦОД до 10 % уже к концу года

Растущий спрос на высокопроизводительные вычисления ведёт к тому, что операторам ЦОД требуются всё более эффективные системы охлаждения для ИИ-серверов. По данным TrendForce, появление NVIDIA Blackwell к концу 2024 года приведёт к тому, что уровень проникновения СЖО в ЦОД может вырасти до 10 %. На решения Blackwell придётся около 83 % передовых продуктов компании.

Отдельные ускорители (G)B200 будут потреблять около 1000 Вт. HGX-платформы по-прежнему будут объединять до восьми ускорителей, а NVL-стойки — сразу 36 или 72. Безусловно, всё это будет способствовать росту цепочки поставок СЖО для ИИ-серверов, поскольку традиционные системы воздушного охлаждения могут попросту не справиться. В частности, GB200 NVL36 и NVL72 могут потреблять до 70 кВт и 140 кВт соответственно. В TrendFirce уверены, что NVL36 будет использовать комбинацию жидкостного и воздушного охлаждения, а вот NVL72 без СЖО не обойтись.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Агентство выделяет основные элементы, входящие в цепочку поставок СЖО для стоек с GB200: водоблоки, модули распределения (CDU), коллекторы, быстроразъёмные соединения (QD) и теплообменники задней двери (RDHx). Основным поставщиком CDU для ИИ-решений NVIDIA сегодня является компания Vertiv, а Chicony, Auras, Delta и CoolIT проходят тестирование. По слухам, NVIDIA уже столкнулась с протечками из-за некачественных компонентов.

В 2025 году поставки GB200 NVL36 должны достигнуть 60 тыс. стоек (суммарно 2,1–2,2 млн ускорителей). Тогда же NVIDIA начнёт предлагать облачным провайдерам и корпоративным клиентам конфигурации HGX, GB200 Rack и MGX, соотношение поставок ожидается на уровне 5:4:1. Стоечные варианты GB200 Rack рассчитаны в первую очередь на гиперскейлеров.

 Источник изображения: TrendForce

Источник изображения: TrendForce

TrendForce прогнозирует, что NVIDIA может представить NVL36 уже в конце 2024 года и быстро выйти на рынок, а NVL72 появится только в 2025 году. Впрочем, облачные гиганты, вероятно, постараются избежать привязки к единственному поставщика и, возможно, захотят развернуть HGX/MGX-варианты на x86-чипах или вовсе задействуют ASIC собственной разработки.

Кстати, компания NVIDIA ищет химика-материаловеда для разработки систем погружного жидкостного охлаждения для высокопроизводительных ускорителей. Специалист должен будет тестировать жидкости и материалы на совместимость, оценивать эффективность охлаждения, коррозионную стойкость и экологичность материалов, чтобы обеспечить оптимальную работу новых продуктов NVIDIA в ЦОД.

Постоянный URL: http://servernews.ru/1108777
29.07.2024 [10:42], Сергей Карасёв

Провайдер облачной ИИ-платформы SMC намерен получить на развитие почти $1 млрд

Сингапурский стартап Sustainable Metal Cloud (SMC), по информации Bloomberg, рассчитывает привлечь почти $1 млрд для создания специализированной облачной платформы для задач ИИ. Речь идёт о системе на основе высокопроизводительных ускорителей NVIDIA.

Фирма SMC основана в 2018 году. Она занимается созданием крупномасштабной инфраструктуры ЦОД: мощности площадки смогут использовать сторонние заказчики для разработки и запуска приложений ИИ.

На сегодняшний день платформа SMC в Сингапуре объединяет приблизительно 1200 ускорителей NVIDIA H100. До конца текущего года их количество планируется довести до 5000. При этом реализована возможность масштабирования до 32 тыс. ускорителей. SMC использует технологию иммерсионного (погружного) охлаждения, которая, как утверждается, позволяет сократить выбросы углекислого газа в атмосферу на 48 % по сравнению с традиционными решениями (при работе с моделями ИИ).

 Источник изображения: SMC

Источник изображения: SMC

Как сообщает Bloomberg, SMC поддерживается сингапурской компанией ST Telemedia Global Data Centers (STT GDC). Говорится, что SMC находится на завершающей стадии осуществления инвестиционного раунда на сумму около $400 млн. Кроме того, компания намерена получить долговое финансирование в размере $550 млн. Таким образом, общая сумма средств, которые рассчитывает привлечь SMC, составляет $950 млн.

Компания SMC создаёт новые облачные регионы в Сингапуре, Индии, Таиланде и Австралии. Оборудование размещается в независимо аккредитованных дата-центрах, что, как утверждается, позволяет формировать высокодоступную и безопасную инфраструктуру.

Постоянный URL: http://servernews.ru/1108638
27.07.2024 [23:44], Алексей Степин

Не так просто и не так быстро: учёные исследовали особенности работы памяти и NVLink C2C в NVIDIA Grace Hopper

Гибридный ускоритель NVIDIA Grace Hopper объединяет CPU- и GPU-модули, которые связаны интерконнектом NVLink C2C. Но, как передаёт HPCWire, в строении и работе суперчипа есть некоторые нюансы, о которых рассказали шведские исследователи.

Им удалось замерить производительность подсистем памяти Grace Hopper и интерконнекта NVLink в реальных сценариях, дабы сравнить полученные результаты с характеристиками, заявленными NVIDIA. Напомним, для интерконнекта изначально заявлена скорость 900 Гбайт/с, что в семь раз превышает возможности PCIe 5.0. Память HBM3 в составе GPU-части имеет ПСП до 4 Тбайт/с, а вариант с HBM3e предлагает уже до 4,9 Тбайт/с. Процессорная часть (Grace) использует LPDDR5x с ПСП до 512 Гбайт/с.

В руках исследователей оказалась базовая версия Grace Hopper с 480 Гбайт LPDDR5X и 96 Гбайт HBM3. Система работала под управлением Red Hat Enterprise Linux 9.3 и использовала CUDA 12.4. В бенчмарке STREAM исследователям удалось получить следующие показатели ПСП: 486 Гбайт/с для CPU и 3,4 Тбайт/с для GPU, что близко к заявленным характеристиками. Однако результат скорость NVLink-C2C составила всего 375 Гбайт/с в направлении host-to-device и лишь 297 Гбайт/с в обратном направлении. Совокупно выходит 672 Гбайт/с, что далеко от заявленных 900 Гбайт/с (75 % от теоретического максимума).

 Источник: NVIDIA

Источник: NVIDIA

Grace Hopper в силу своей конструкции предлагает два вида таблицы для страниц памяти: общесистемную (по умолчанию страницы размером 4 Кбайт или 64 Кбайт), которая охватывает CPU и GPU, и эксклюзивную для GPU-части (2 Мбайт). При этом скорость инициализации зависит от того, откуда приходит запрос. Если инициализация памяти происходит на стороне CPU, то данные по умолчанию помещаются в LPDDR5x, к которой у GPU-части есть прямой доступ посредством NVLink C2C (без миграции), а таблица памяти видна и GPU, и CPU.

 Источник: arxiv.org

Источник: arxiv.org

Если же памятью управляет не ОС, а CUDA, то инициализацию можно сразу организовать на стороне GPU, что обычно гораздо быстрее, а данные поместить в HBM. При этом предоставляется единое виртуальное адресное пространство, но таблиц памяти две, для CPU и GPU, а сам механизм обмена данными между ними подразумевает миграцию страниц. Впрочем, несмотря на наличие NVLink C2C, идеальной остаётся ситуация, когда GPU-нагрузке хватает HBM, а CPU-нагрузкам достаточно LPDDR5x.

 Источник: arxiv.org

Источник: arxiv.org

Также исследователи затронули вопрос производительности при использовании страниц памяти разного размера. 4-Кбайт страницы обычно используются процессорной частью с LPDDR5X, а также в тех случаях, когда GPU нужно получить данные от CPU через NVLink-C2C. Но как правило в HPC-нагрузках оптимальнее использовать 64-Кбайт страницы, на управление которыми расходуется меньше ресурсов. Когда же доступ в память хаотичен и непостоянен, страницы размером 4 Кбайт позволяют более тонко управлять ресурсами. В некоторых случаях возможно двукратное преимущество в производительности за счёт отсутствия перемещения неиспользуемых данных в страницах объёмом 64 Кбайт.

В опубликованной работе отмечается, что для более глубокого понимания механизмов работы унифицированной памяти у гетерогенных решений, подобных Grace Hopper, потребуются дальнейшие исследования.

Постоянный URL: http://servernews.ru/1108561
27.07.2024 [15:54], Сергей Карасёв

Поставщик ИИ-услуг Gcore привлёк на развитие $60 млн от Wargaming и других инвесторов

Провайдер облачных и периферийных сервисов Gcore, по сообщению Datacenter Dynamics, осуществил раунд финансирования Series A, в ходе которого на развитие получено $60 млн. Инвестиционную программу возглавил разработчик и издатель игр Wargaming при участии Constructor Capital и Han River Partners.

Gcore была основана в Люксембурге в 2014 году. Компания управляет инфраструктурой, которая позволяет клиентам развёртывать свои рабочие нагрузки ИИ (обучение и инференс) на периферии. Штаб-квартира Gcore находится в Люксембурге, а представительства располагаются в Вильнюсе, Кракове, Белграде, Никосии, Тбилиси, Ташкенте, Маниле, Сеуле и Токио.

На сегодняшний день инфраструктура Gcore объединяет примерно 180 edge-точек на шести континентах и более 25 облачных локаций, а общая пропускная способность сети достигает 200 Тбит/с. В качестве технологических партнёров выступают Intel, Dell, Lenovo, Wallarm, Equinix, Graphcore, Digital-Realty, Wasabi, HP, AMD, Arista и Kentik.

 Источник изображения: Gcore

Источник изображения: Gcore

Gcore заявляет, что применяет в составе своей сети новейшее оборудование на процессорах AMD и Intel последнего поколения. Реализованы надёжные средства защиты от несанкционированного доступа и кражи данных. Упомянуты система обнаружения вторжений (IDS), инструменты резервного копирования и восстановления, двухфакторная аутентификация, шифрование AES-128/256, сертифицированные операционные системы.

Полученные в рамках раунда Series A средства будут направлены на дальнейшее расширение платформы Gcore, включая приобретение новых ИИ-серверов на базе ускорителей NVIDIA. Это первое внешнее привлечение капитала с момента основания компании. «Растущий спрос на инфраструктуру ИИ со стороны предприятий малого и среднего бизнеса подчёркивает важность этого финансирования. Мы очень рады поддержке таких инвесторов, как Wargaming, Constructor Capital и Han River Partners», — говорит Андре Райтенбах (Andre Reitenbach), генеральный директор Gcore.

Постоянный URL: http://servernews.ru/1108586
25.07.2024 [10:12], Владимир Мироненко

AMD показала превосходство чипов EPYC над Arm-процессорами NVIDIA Grace в серии бенчмарков, но не всё так просто

AMD провела серию тестов, чтобы доказать преимущество своих нынешних процессоров AMD EPYC над Arm-процессорами NVIDIA Grace Superchip. Как отметила AMD, в связи с растущей востребованностью ЦОД некоторые компании начали предлагать альтернативные варианты процессоров, «часто обещающие преимущества по сравнению с обычными решениями x86».

«Обычно их представляют с большой помпой и заявлениями о значительных преимуществах в производительности и энергоэффективности по сравнению с x86. Слишком часто эти утверждения довольно сложно воплотить в реальные сценарии конкурентной рабочей нагрузки — с использованием устаревших, недостаточно оптимизированных альтернатив или плохо документированных предположений», — отметила AMD.

С помощью серии стандартных отраслевых тестов AMD, по её словам, продемонстрировала преимущество EPYC над решениями на базе Arm. «Благодаря проверенной архитектуре x86-64, впервые разработанной AMD, вы можете получить всё это без дорогостоящего портирования или изменений в архитектуре», — подчеркнула компания. Иными словами, тесты AMD могут быть просто попыткой развеять опасения, что архитектура x86 «выдыхается» и что Arm берёт верх.

 Источник изображений: AMD

Источник изображений: AMD

AMD сравнила производительность AMD EPYC и NVIDIA Grace CPU в десяти ключевых рабочих нагрузках, охватывающих вычисления общего назначения, Java, транзакционные базы данных, системы поддержки принятия решений, веб-серверы, аналитику, кодирование видео и нагрузки HPC. Согласно представленному выше графику, 128-ядерный процессор EPYC 9754 (Bergamo) и 96-ядерный EPYC 9654 (Genoa) более чем вдвое превзошли NVIDIA Grace CPU Superchip по производительности при обработке вышеуказанных нагрузок.

Напомним, что Grace CPU Superchip содержит два 72-ядерных кристалла Grace, использующих ядра Arm Neoverse V2, соединённых шиной NVLink C2C с пропускной способность 900 Гбайт/с, и работает как единый 144-ядерный процессор. В свою очередь, ресурс The Register отметил, что речь идёт о версии с 480 Гбайт памяти LPDDR5x, а не с 960 Гбайт.

В тесте SPECpower-ssj2008, по данным AMD, одно- и двухсокетные системы на базе AMD EPYC 9754 превосходят систему NVIDIA Grace CPU Superchip по производительности на Вт примерно в 2,50 раза и 2,75 раза соответственно, а двухсокетная система AMD EPYC 9654 — примерно в 2,27 раза.

Помимо производительности и эффективности, ещё одним важным фактором для операторов ЦОД является совместимость, сообщила AMD. По оценкам, во всем мире существуют триллионы строк программного кода, большая часть которого написана для архитектуры x86. EPYC основаны на архитектуре x86-64, впервые разработанной AMD, и эта архитектура является наиболее широко используемой и поддерживаемой в индустрии ЦОД, заявила компания, добавив, что изменения в архитектуре сложны, дороги и чреваты риском.

AMD также отметила, что экосистема AMD EPYC включает более 250 различных конструкций серверов и поддерживает около 900 уникальных облачных инстансов. Также процессоры AMD EPYC установили более 300 мировых рекордов производительности и эффективности в широком спектре тестов. В то же время лишь немногие Arm-решения доказали свою эффективность.

В свою очередь, ресурс The Register отметил, что ситуация не так проста, как AMD пытается всех убедить. В феврале сайт The Next Platform сообщил, что исследователи из университетов Стоуни-Брук и Буффало сравнили данные о производительности суперчипа NVIDIA Grace CPU Superchip и нескольких процессоров x86, предоставленные несколькими НИИ и разработчиком облачных решений.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

Большинство этих тестов были ориентированы на HPC, включая Linpack, HPCG, OpenFOAM и Gromacs. И хотя производительность системы Grace сильно различалась в разных тестах, в худшем случае она находилась где-то между Intel Skylake-SP и Ice Lake-SP, превосходя AMD Milan и находясь в пределах досягаемости от показателей Xeon Max. Данные результаты отражают тот факт, что самые мощные процессоры AMD EPYC Genoa и Bergamo могут превзойти первый процессор NVIDIA для ЦОД — при правильно выбранном тесте.

В техническом описании Grace CPU Superchip компания NVIDIA сообщает, что этот чип обеспечивает от 0,9- до 2,4-кратного увеличения производительности по сравнению с двумя 96-ядерными EPYC 9654 и предлагает до трёх раз большую пропускную способность в различных облачных и HPC-сервисах. NVIDIA отмечает, что Superchip предназначен для «обработки массивов для получения интеллектуальных данных с максимальной энергоэффективностью», говоря об ИИ, анализе данных, нагрузках облачных гиперскейлеров и приложениях HPC.

Постоянный URL: http://servernews.ru/1108454
23.07.2024 [01:20], Владимир Мироненко

Стартап xAI Илона Маска запустил ИИ-кластер в Теннеси [Обновлено]

Илон Маск объявил в соцсети X (ранее Twitter) о запуске стартапом xAI в дата-центре в Мемфисе «самого мощного в мире кластера для обучения ИИ», который будет использоваться для создания «самого мощного в мире по всем показателям искусственного интеллекта к декабрю этого года», пишет Tom's Hardware. Однако, судя по всему, на практике сейчас работает лишь очень небольшая часть кластера.

«Отличная работа команды @xAI, команды @X, @Nvidia и компаний поддержки, которые начали обучение с кластером Memphis Supercluster примерно в 4:20 утра по местному времени. 100 тыс. H100 с жидкостным охлаждением в единой RDMA-фабрике — это самый мощный кластер обучения ИИ в мире!», — сообщил миллиардер в своём аккаунте.

Как указали в xAI, новая вычислительная система будет использоваться для обучения новой версии @grok, которая будет доступна премиум-подписчикам @x. Ранее появились сообщения о том, что оборудование для ИИ-кластера будут поставлять Dell и Supermicro. Комментируя нынешнее заявление Маска, гендиректор Supermicro Чарльз Лян (Charles Liang) подтвердил, что большая часть оборудования для ИИ-кластера была поставлена его компанией.

 Источник изображений: xAI

Источник изображений: xAI

В мае этого года Маск поделился планами построить гигантский суперкомпьютер для xAI для работы над следующей версией чат-бота Grok, который будет включать 100 тыс. ускорителей Nvidia H100. А в следующем году Илон Маск планирует запустить ещё один кластер, который будет содержать 300 тыс. ускорителей NVIDIA B200. Для его создания Маск намеревался привлечь Oracle, планируя выделить $10 млрд на аренду ИИ-серверов компании, но затем отказался от этой идеи, так как его не устроили предложенные Oracle сроки реализации проекта.

Как отметил ресурс Tom's Hardware, новый ИИ-кластер стартапа xAI превосходит все суперкомпьютеры из TOP500 с точки зрения количества ускорителей. Самые мощные в мире суперкомпьютеры, такие как Frontier (37 888 ускорителей AMD), Aurora (60 000 ускорителей Intel) и Microsoft Eagle (14 400 ускорителей NVIDIA), похоже, значительно уступают кластеру xAI. Впрочем, технические детали о сетевой фабрике нового кластера пока не предоставлены.

Но, как выясняется, не всё в заявлении Маска соответствует действительности. Аналитик Dylan Patel (Дилан Пател) из SemiAnalysis обвинил Маска во лжи, поскольку в настоящее время кластеру доступно 7 МВт мощности, чего хватит для работы примерно 4 тыс. ускорителей. С 1 августа будет доступно 50 МВт, если xAI наконец подпишет соглашение с властями Теннесси. А подстанция мощностью 150 МВт все ещё находится в стадии строительства, которое завершится в IV квартале 2024 года.

Как отмечает местное издание commercial appeal, поскольку речь идёт об объекте мощностью более 100 МВт, для его подключения требуется разрешение коммунальных компаний Memphis Light, Gas and Water (MLGW) и Tennessee Valley Authority (TVA). Контракт на подключение ЦОД к энергосети с TVA не был подписан. Более того, для охлаждения ЦОД, по оценкам MLGW, потребуется порядка 4,9 тыс. м3 воды ежедневно.

UPD: Дилан Пател удалил исходный твит, но уточнил текущее положение дел. От энергосети кластер сейчас потребляет 8 МВт, однако рядом с площадкой установлены мобильные генераторы (14 × 2,5 МВт), так что сейчас в кластере активны около 32 тыс. ускорителей, а в полную силу он зарабатает в IV квартале. Если контракт с TVA будет подписан, то к 1 августу кампус получит ещё 50 МВт от сети, а к концу году будет подведено 200 МВт. Для работы 100 тыс. H100 требуется порядка 155 МВт.

Постоянный URL: http://servernews.ru/1108338
22.07.2024 [15:57], Руслан Авдеев

Поставки суперускорителей с чипами NVIDIA GB200 могут задержаться из-за протечек СЖО

NVIDIA уже готовилась начать продажи систем на базе новейших ИИ-суперускорителей GB200, однако столкнулась с непредвиденной проблемой — TweakTown сообщает, что в системах жидкостного охлаждения этих серверов начали появляться протечки.

Судя по всему, серверы на основе GB200 использовали дефектные компоненты систем СЖО охлаждения, поставляемые сторонними производителями: разветвители, быстросъёмные соединители и шланги. Некорректная работа любого из этих компонентов может привести к утечке охлаждающей жидкости. В случае с моделью GB200 NVL72 стоимостью в $3 млн это может перерасти в большую проблему.

К счастью, нарушения в работе новых систем NVIDIA GB200 NVL36 и NVL72 обнаружили до начала массового производства в преддверии запуска поставок ключевым покупателям ИИ-решений. Предполагается, что на сроках поставок проблема не скажется, поскольку её успеют устранить. Впрочем, по данным источников, теперь крупные провайдеры облачных сервисов «нервничают».

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

NVIDIA предлагают свою продукцию всё больше тайваньских производителей, способных заменить бракованные компоненты для серверных систем с GB200. Однако сертификация компонентов — процесс довольно сложный, поскольку многие тайваньские компании не специализировались на их выпуске ещё в недавнем прошлом. Тем не менее, когда NVIDIA объявила, что ускорители следующего поколения получат жидкостное охлаждение, многие производители решили попробовать себя в этой сфере.

Тайваньские Shuanghong и Qihong уже имеют хороший опыт в выпуске водоблоков, а теперь расширили спектр разрабатываемых товаров, предлагая разветвители, быстросъемные соединители и шланги. Именно эти компании по некоторым данным сейчас предоставляют необходимые комплектующие для замены бракованных в новых суперускорителях NVIDIA GB200 NVL36 и NVL72. Лидером на рынке серверных СЖО остаётся CoolIT, но её услугами NVIDIA, видимо, решила не пользоваться.

Постоянный URL: http://servernews.ru/1108309
Система Orphus