Материалы по тегу: сжо

14.08.2024 [14:51], Руслан Авдеев

Не было гвоздя: дефицит быстроразъёмных соединений для СЖО обошёлся Supermicro в $800 млн отложенной выручки

Любой производитель не застрахован от сбоя цепочки поставок небольших комплектующих, ведущих к значительным убыткам, иногда исчисляемым сотнями миллионов долларов. Как сообщает Tom’s Hardware, Supermicro не удалось вовремя получить достаточное количество быстроразъёмных соединений для систем жидкостного охлаждения (СЖО), из-за чего произошла задержка поставок готовой продукции покупателям. В результате сформировалась «отложенная выручка» в размере $800 млн, которую пришлось перенести с одного квартала на другой.

СЖО чрезвычайно важны для ИИ-серверов и обычно состоят из нескольких компонентов, объединяемых быстроразъёмными соединениями. Такие разъёмы могут подтекать, поэтому их качество имеет ключевое значение. Из-за высокого спроса на ИИ-серверы спрос на соединения тоже вырос. Их цена уже поднялась с $40 до $60, причём потенциальные покупатели готовы переплачивать ещё больше, лишь бы забронировать поставки.

 Источник изображения: Cejn

Источник изображения: Cejn

Рынок быстроразъёмных соединителей контролируется семью компаниями, в том числе двумя китайскими, попавшими под санкции США, что только усугубляет глобальный дефицит. Тайваньские производители Global Tek, Fositek и Lotes охотно пользуются ситуацией, наращивая и ускоряя производство и сертификацию соответствующих продуктов — это поможет заполнить «пустоту» от ухода попавших под санкции китайских компаний. Global Tek активно работает с партнёрами на своих заводах, образцы уже проходят тестирование. Компания рассчитывает, что выручка от этих проектов начнёт поступать уже в IV квартале 2024 года.

Спрос на СЖО действительно высок и ожидается, что к 2028 году они займут треть рынка систем охлаждения для дата-центров. При этом уже поступают рекламации — не исключено, что поставки суперускорителей NVIDIA GB200 могут задержаться из-за протечек вспомогательной «фурнитуры» систем жидкостного охлаждения.

Постоянный URL: http://servernews.ru/1109451
09.08.2024 [09:32], Руслан Авдеев

ИИ ЦОД за полгода: Supermicro анонсировала DCBBS, методологию быстрого возведения и модернизации дата-центров

В Supermicro рассказали о методологии строительства дата-центров DCBBS, позволяющей создавать небольшие ЦОД за срок от полугода или сокращать время строительства более крупных объектов с трёх до двух лет. Как сообщает The Register, о новом подходе рассказал глава компании Чарльз Лян (Charles Liang) во время последнего финансового отчёта.

Глава Supermicro подчеркнул, что выручка только за IV квартал 2024 финансового года превзошла всю выручку за 2022 год. Впрочем, Лян признал, что новую проприетарную технологию прямого жидкостного охлаждения (DLC) оказалось трудно и дорого разработать, не в последнюю очередь из-за дефицита компонентов. Именно это стало причиной того, что компания недополучила $800 млн квартальной выручи, разоачаровала аналитиков и резко потеряла в рыночной стоимости.

Тем не менее глава компании уверен, что инвестиции в дополнительные производственные мощности помогут справиться с этой нехваткой и удвоить число выпускаемых стоек с DLC с 1500 до 3000 в месяц в течение финансового года. По словам Ляна, СЖО Supermicro стоят не больше, чем обычные системы охлаждения, но системы с ним потребляют меньше энергии, т.е. в итоге позволяют экономить средства. Спрос на подобные комплекты увеличится, уверены в компании.

 Источник изображения: Supermicro

Источник изображения: Supermicro

Анонсированная в ходе отчёта методология Supermicro 4.0 Datacenter Building Block Solutions (DCBBS) позволит значительно ускорить ввод в эксплуатацию ЦОД и оптимизировать их стоимость. Предполагается полная интеграция ИИ-вычислений, серверов, хранилищ, сети, энергетического оборудования и, конечно, СЖО, а также ПО для сквозного управления и услуги по развёртыванию и обслуживанию. Предполагается, что два года будет уходить создание крупных ИИ ЦОД, а для на объекты меньшего масштаба или модернизацию старых ЦОД уйдёт всего 6-12 месяцев.

При этом в компании не ожидают, что новые ускорители NVIDIA Blackwell, которые как раз без СЖО обходиться будут с трудом, поспособствуют росту Supermicro в 2025 финансовом году. Финансовые аналитики выразили озабоченность падением маржинальности бизнеса, но Лян подчеркнул, что Supermicro улучшит показатели. Впрочем, планам компании может помешать сама NVIDIA, вынужденно отложившая массовое производство новейших ускорителей. Услуги в рамках DCBBS компания намерена предложить к концу 2024 года.

Постоянный URL: http://servernews.ru/1109172
05.08.2024 [10:34], Руслан Авдеев

Microsoft начала активно внедрять прямое жидкостное охлаждение в своих ЦОД и приступила к прикладному изучению микрогидродинамики

Компания Microsoft стала активно применять прямое жидкостное охлаждение чипов в серверах своих ЦОД. Datacenter Dynamics сообщает, что IT-гигант приступил и к изучению более передовой технологии, основанной на принципах микрогидродинамики.

Как свидетельствует недавний пост в блоге компании, посвящённый использованию воды и применяемым СЖО разных поколений, сейчас разрабатывается новая архитектура дата-центров, оптимизированных для прямого жидкостного охлаждения чипов. Это требует переосмысления конструкции серверов и серверных стоек для внедрения новых методов терморегуляции и управления энергией.

Компания уже использует sidekick-СЖО в действующих ЦОД. Впервые они были представлены во время анонса процессоров Cobalt и ИИ-ускорителей Maya. Последние будут развёрнуты в кастомных стойках и кластерах Ares. Серверы для них шире 19″ и даже OCP-стоек и нуждаются именно в жидкостном охлаждении — других конфигураций не предусмотрено. Каждый сервер получит по четыре ускорителя Maya, а стойка будет вмещать восемь серверов. А рядом с ней будет ещё одна стойка с компонентами охлаждения. Аналогичный дизайн использует Meta, которая также была вынуждена пересмотреть архитектуру своих ЦОД из-за ИИ.

 Источник изображений: Microsoft

Источник изображений: Microsoft

Не менее интересны и разработки в сфере микрогидродинамики. Этот подход предусматривает размещение микроканалов для подачи жидкости буквально внутри самих чипов, что обеспечивает ещё более высокую эффективность охлаждения. В компании утверждают, что все эти разработки оптимизированы для поддержки ИИ-нагрузок в ЦОД и в то же время дружественны к экологии. Благодаря инновациям можно значительно снизить потребление чистой воды, одновременно обеспечивая повышенную ёмкость серверных стоек, благодаря чему возрастает польза от каждого задействованного квадратного метра.

Microsoft намерена стать «водно-положительной» к 2030 году. В ESG-докладе 2023 года компания заявила, что использовала в 2022 году 6,4 млн м3, преимущественно для своих ЦОД. В докладе 2024 года показатель увеличился уже до 7,8 млн м3 в 2023 году. Проблемы с потреблением воды вообще характерны для IT-гиганта и его партнёров.

Запись в блоге Microsoft также свидетельствует о том, что компания расширила использование восстановленной и переработанной воды на площадках в Техасе, Вашингтоне, в Калифорнии и Сингапуре. В Нидерландах, Ирландии и Швеции компания собирает дождевую воду и намерена расширить эту практику на Канаду, Великобританию, Финляндию, Италию, Южную Африку и Австрию. В Нидерландах, правда, всё оказалось не так хорошо, как обещала компания. Как заявляют Microsoft, с первого поколения собственных дата-центров в начале 2000-х годов до текущего поколения в 2020-х, использование воды на кВт·ч снизилось более чем на 80 %.

Ранее компания сотрудничала с разработчиком систем двухфазного погружного жидкостного охлаждения LiquidStack, который поддерживается одним из поставщиков Microsoft — Wiwynn. В прошлом году LiquidStack представила однофазную систему иммерсионного охлаждения для ИИ-систем, а также запустила в США производство СЖО, но для кого именно она их выпускает, не уточняется.

Постоянный URL: http://servernews.ru/1108972
31.07.2024 [17:46], Руслан Авдеев

Появление NVIDIA Blackwell приведёт к увеличению доли СЖО в ЦОД до 10 % уже к концу года

Растущий спрос на высокопроизводительные вычисления ведёт к тому, что операторам ЦОД требуются всё более эффективные системы охлаждения для ИИ-серверов. По данным TrendForce, появление NVIDIA Blackwell к концу 2024 года приведёт к тому, что уровень проникновения СЖО в ЦОД может вырасти до 10 %. На решения Blackwell придётся около 83 % передовых продуктов компании.

Отдельные ускорители (G)B200 будут потреблять около 1000 Вт. HGX-платформы по-прежнему будут объединять до восьми ускорителей, а NVL-стойки — сразу 36 или 72. Безусловно, всё это будет способствовать росту цепочки поставок СЖО для ИИ-серверов, поскольку традиционные системы воздушного охлаждения могут попросту не справиться. В частности, GB200 NVL36 и NVL72 могут потреблять до 70 кВт и 140 кВт соответственно. В TrendFirce уверены, что NVL36 будет использовать комбинацию жидкостного и воздушного охлаждения, а вот NVL72 без СЖО не обойтись.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Агентство выделяет основные элементы, входящие в цепочку поставок СЖО для стоек с GB200: водоблоки, модули распределения (CDU), коллекторы, быстроразъёмные соединения (QD) и теплообменники задней двери (RDHx). Основным поставщиком CDU для ИИ-решений NVIDIA сегодня является компания Vertiv, а Chicony, Auras, Delta и CoolIT проходят тестирование. По слухам, NVIDIA уже столкнулась с протечками из-за некачественных компонентов.

В 2025 году поставки GB200 NVL36 должны достигнуть 60 тыс. стоек (суммарно 2,1–2,2 млн ускорителей). Тогда же NVIDIA начнёт предлагать облачным провайдерам и корпоративным клиентам конфигурации HGX, GB200 Rack и MGX, соотношение поставок ожидается на уровне 5:4:1. Стоечные варианты GB200 Rack рассчитаны в первую очередь на гиперскейлеров.

 Источник изображения: TrendForce

Источник изображения: TrendForce

TrendForce прогнозирует, что NVIDIA может представить NVL36 уже в конце 2024 года и быстро выйти на рынок, а NVL72 появится только в 2025 году. Впрочем, облачные гиганты, вероятно, постараются избежать привязки к единственному поставщика и, возможно, захотят развернуть HGX/MGX-варианты на x86-чипах или вовсе задействуют ASIC собственной разработки.

Кстати, компания NVIDIA ищет химика-материаловеда для разработки систем погружного жидкостного охлаждения для высокопроизводительных ускорителей. Специалист должен будет тестировать жидкости и материалы на совместимость, оценивать эффективность охлаждения, коррозионную стойкость и экологичность материалов, чтобы обеспечить оптимальную работу новых продуктов NVIDIA в ЦОД.

Постоянный URL: http://servernews.ru/1108777
31.07.2024 [11:21], Сергей Карасёв

Vertiv представила модульные дата-центры высокой плотности для ИИ-нагрузок

Компания Vertiv представила модульную платформу MegaMod CoolChip, предназначенную для построения дата-центров высокой плотности для задач ИИ. Утверждается, что данное решение позволяет сократить время развёртывания вычислительных мощностей примерно в два раза по сравнению с традиционным строительством.

Отмечается, что стремительное развитие генеративного ИИ, машинного обучения и НРС-приложений приводит к необходимости изменения обычной концепции ЦОД. Из-за большого количества мощных ускорителей требуется внедрение более эффективных систем охлаждения. В случае MegaMod CoolChip реализуется гибридный подход с воздушным и жидкостным охлаждением.

Инфраструктура MegaMod CoolChip может включать в себя блоки распределения охлаждающей жидкости Vertiv XDU, стойки с поддержкой СЖО Vertiv Liquid-cooled Rack, решения Vertiv Air Cooling, стоечные блоки распределения питания Vertiv rPDU и пр. Модульная архитектура MegaMod CoolChip предусматривает возможность установки до 12 стоек в ряд. Мощность каждой из них может превышать 100 кВт.

 Источник изображения: Vertiv

Источник изображения: Vertiv

MegaMod CoolChip поставляется в виде отдельных блоков, которые монтируются непосредственно на месте размещения дата-центра. Возможны различные варианты организации воздушно-жидкостного охлаждения. Для СЖО используется технология однофазного прямого жидкостного охлаждения Direct-To-Chip. Возможно резервирование охлаждающих систем по схеме N+1.

Постоянный URL: http://servernews.ru/1108756
23.07.2024 [11:33], Сергей Карасёв

HPE разместила североамериканское ИИ-облако в дата-центре QScale

HPE выбрала компанию QScale в качестве партнёра для размещения своего ИИ-облака в Северной Америке. Инфраструктура, поддерживающая обучение, оптимизацию и развёртывание масштабных ИИ-моделей, базируется в дата-центре QScale Q01 в Квебеке (Канада).

Фирма QScale основана в 2018 году Винсентом Тибо (Vincent Thibault), Дэни Перроном (Dany Perron) и Мартином Бушаром (Martin Bouchard) с целью предоставления ресурсов для задач ИИ и НРС. В прошлом году компания привлекла инвестиции от американского оператора Aligned Data Centers.

Создание площадки QScale Q01 началось в 2021 году. Комплекс соответствует уровню Tier III. Для питания на 100 % используется энергия из возобновляемых источников. Заявленный коэффициент PUE составляет менее 1,2. Доступны полностью кастомизируемые системы воздушного и жидкостного охлаждения. Во втором случае мощность может превышать 300 кВт на стойку. Кроме того, задействовано естественное охлаждение, поддерживаемое холодным климатом Квебека.

 Источник изображения: QScale

Источник изображения: QScale

HPE является якорным арендатором дата-центра QScale Q01 с 2023 года. Ожидается, что после завершения строительства суммарная мощность этого кампуса составит 142 МВт. Отмечается, что современная инфраструктура QScale позволила HPE минимизировать воздействие своего ИИ-облака на окружающую среду. Энергопотребление удалось снизить приблизительно на 20 % по сравнению с традиционными ЦОД.

«Технический опыт QScale и приверженность устойчивому развитию позволили нам в сжатые сроки ввести облачную ИИ-платформу в эксплуатацию», — отметил Майк Вангсмо (Mike Wangsmo), директор направления облачных дата-центров HPE.

Постоянный URL: http://servernews.ru/1108346
22.07.2024 [15:57], Руслан Авдеев

Поставки суперускорителей с чипами NVIDIA GB200 могут задержаться из-за протечек СЖО

NVIDIA уже готовилась начать продажи систем на базе новейших ИИ-суперускорителей GB200, однако столкнулась с непредвиденной проблемой — TweakTown сообщает, что в системах жидкостного охлаждения этих серверов начали появляться протечки.

Судя по всему, серверы на основе GB200 использовали дефектные компоненты систем СЖО охлаждения, поставляемые сторонними производителями: разветвители, быстросъёмные соединители и шланги. Некорректная работа любого из этих компонентов может привести к утечке охлаждающей жидкости. В случае с моделью GB200 NVL72 стоимостью в $3 млн это может перерасти в большую проблему.

К счастью, нарушения в работе новых систем NVIDIA GB200 NVL36 и NVL72 обнаружили до начала массового производства в преддверии запуска поставок ключевым покупателям ИИ-решений. Предполагается, что на сроках поставок проблема не скажется, поскольку её успеют устранить. Впрочем, по данным источников, теперь крупные провайдеры облачных сервисов «нервничают».

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

NVIDIA предлагают свою продукцию всё больше тайваньских производителей, способных заменить бракованные компоненты для серверных систем с GB200. Однако сертификация компонентов — процесс довольно сложный, поскольку многие тайваньские компании не специализировались на их выпуске ещё в недавнем прошлом. Тем не менее, когда NVIDIA объявила, что ускорители следующего поколения получат жидкостное охлаждение, многие производители решили попробовать себя в этой сфере.

Тайваньские Shuanghong и Qihong уже имеют хороший опыт в выпуске водоблоков, а теперь расширили спектр разрабатываемых товаров, предлагая разветвители, быстросъемные соединители и шланги. Именно эти компании по некоторым данным сейчас предоставляют необходимые комплектующие для замены бракованных в новых суперускорителях NVIDIA GB200 NVL36 и NVL72. Лидером на рынке серверных СЖО остаётся CoolIT, но её услугами NVIDIA, видимо, решила не пользоваться.

Постоянный URL: http://servernews.ru/1108309
12.07.2024 [14:17], Руслан Авдеев

Нефтяная компания Gulf Oil выпустит жидкость для систем охлаждения дата-центров

Очередная нефтяная компания занялась бизнесом, связанным с ЦОД, наладив выпуск собственных жидкостей для систем охлаждения. По данным Datacenter Dynamics, для Gulf Oil Lubricants India (GOLIL), входящей в Hinduja Group, рынок систем охлаждения для дата-центров является нишевым, но, по словам компании, такие технологии весьма благоприятно влияют на окружающую среду.

По словам управляющего директора GOLIL, большинство компаний, выпускающих различные типы ГСМ, могут создавать продукты для сектора СЖО. При этом для полного заполнения, например, индийского рынка достаточно всего 12–14 млн л из расчёта 8,3 л/кВт при ёмкости ЦОД около 1,7 ГВт. Сейчас GOLIL поставляет моторные масла, тормозные жидкости, охлаждающие жидкости для радиаторов и всевозможные смазки для автомобилей, грузовиков и тракторов.

 Источник изображения: Julian Böck/unsplash.com

Источник изображения: Julian Böck/unsplash.com

Интерес к системам охлаждения для ЦОД в последнее время проявляют и другие нефтегазовые компании, включая Shell, Castrol, ExxonMobil, ENEOS, Petronas и SK Enmove — все они выпустили жидкости для СЖО дата-центров. Впрочем, жидкости предлагают даже продовольственные компании вроде американская Cargill и представители традиционной химической промышленности вроде Chemours (ответвление DuPont).

Постоянный URL: http://servernews.ru/1107872
29.06.2024 [13:08], Сергей Карасёв

Энергопотребление ИИ-ускорителя AWS Trainium 3 может достигать 1000 Вт

Облачная платформа Amazon Web Services (AWS) готовит ИИ-ускоритель нового поколения — изделие Trainium 3. Завесу тайны над этим решением, как сообщает ресурс Fierce Networks, приоткрыл вице-президент компании по инфраструктурным услугам Прасад Кальянараман (Prasad Kalyanaraman).

Оригинальный ускоритель AWS Trainium дебютировал в конце 2021 года. Его производительность — 3,4 Пфлопс на вычислениях малой точности и до 840 Тфлопс в FP32-расчётах. В ноябре 2023-го было представлено решение AWS Trainium 2, которое, как утверждается, вчетверо производительнее первой версии. Теперь AWS готовит изделие третьего поколения.

Кальянараман намекнул, что энергопотребление Trainium 3 достигнет 1000 Вт или более. Он не стал называть конкретные цифры, но сказал, что для ускорителя планируется применение СЖО. «Текущее поколение ускорителей не требует СЖО, но следующему она понадобится. Когда мощность чипа превышает 1000 Вт, ему необходимо жидкостное охлаждение», — отметил Кальянараман.

 Источник изображения: AWS

Источник изображения: AWS

В настоящее время единственными ИИ-изделиями, показатель TDP которых достигает 1000 Вт, являются ускорители NVIDIA Blackwell. Вместе с тем, по имеющимся сведениям, Intel разрабатывает устройство в соответствующей категории с энергопотреблением на уровне 1500 Вт.

На текущий момент почти все дата-центры AWS используют технологию воздушного охлаждения. Но Кальянараман сказал, что компания рассматривает возможность внедрения технологии однофазной СЖО (а не иммерсионного охлаждения) для поддержки ресурсоёмких рабочих нагрузок. К внедрению СЖО вынужденно пришли и Meta с Microsoft — компании используют гибридный подход с водоблоками на чипах и теплообменниками на дверях стойки или же в составе отдельной стойки.

Кроме того, отметил Кальянараман, AWS стремится к дальнейшей оптимизации своих ЦОД путём «стратегического позиционирования стоек» и модернизации сетевой архитектуры. Речь идёт о применении коммутаторов следующего поколения с пропускной способностью до 51,2 Тбит/с, а также оптических компонентов.

Постоянный URL: http://servernews.ru/1107261
29.06.2024 [12:58], Сергей Карасёв

Бывший специалист Google по СЖО присоединился к OpenAI

Компания OpenAI, по сообщению ресурса Datacenter Dynamics, наняла еще одного бывшего сотрудника Tesla и Google для развития своей вычислительной инфраструктуры. Несмотря на использование облака Microsoft Azure, OpenAI развивает собственное направление ЦОД, в связи с чем расширяет штат специалистов в соответствующей области.

В OpenAI перешел Реза Хиабани (Reza Khiabani), который ранее в течение почти двух лет работал в Tesla в качестве инженера-теплотехника. Он, в частности, помогал в создании системы охлаждения для ИИ-суперкомпьютера Dojo, для которого планируется построить специальный дата-центр. Однако с реализацией проекта возникли сложности.

До прихода в Tesla Хиабани проработал почти девять лет в Google, из которых основную часть времени выполнял обязанности технического менеджера, архитектора тепловых систем и технического руководителя команды по разработке СЖО для ИИ-ускорителей семейства Cloud TPU. Он курировал проектирование ЦОД, тепловой дизайн TPU и «разработку машстабных систем жидкостного охлаждения».

 Источник изображения: Google

Источник изображения: Google

В OpenAI Хиабани войдёт в техническую команду. Чем именно ему предстоит заниматься, не уточняется. Но можно предположить, что его работа снова будет связана с решениями СЖО для дата-центров, ориентированных на ресурсоёмкие приложения ИИ.

OpenAI активно нанимает бывших специалистов Tesla и Google. В частности, ранее ИИ-компания назначила бывшего руководителя Google TPU Ричарда Хо (Richard Ho) главой отдела аппаратного обеспечения. В OpenAI также перешли ветеран Google Тодд Андервуд (Todd Underwood) и старший инженер-программист команды Tesla Dojo Клайв Чан (Clive Chan).

Постоянный URL: http://servernews.ru/1107258

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

Система Orphus