Материалы по тегу: ocp

22.08.2025 [16:33], Владимир Мироненко

Почти как у самой NVIDIA: NVLink Fusion позволит создавать кастомные ИИ-платформы

Технологии NVIDIA NVLink и NVLink Fusion позволят вывести производительность ИИ-инференса на новый уровень благодаря повышенной масштабируемости, гибкости и возможностям интеграции со сторонними чипами, которые в совокупности отвечает стремительному росту сложности ИИ-моделей, сообщается в блоге NVIDIA.

С ростом сложности ИИ-моделей выросло количество их параметров — с миллионов до триллионов, что требует для обеспечения их работы значительных вычислительных ресурсов в виде кластеров ускорителей. Росту требований, предъявляемых к вычислительным ресурсам, также способствует внедрение архитектур со смешанным типом вычислений (MoE) и ИИ-алгоритмов рассуждений с масштабированием (Test-time scaling, TTS).

NVIDIA представила интерконнект NVLink в 2016 году. Пятое поколение NVLink, вышедшее в 2024 году, позволяет объединить в одной стойке 72 ускорителя каналами шириной 1800 Гбайт/с (по 900 Гбайт/с в каждую сторону), обеспечивая суммарную пропускную способность 130 Тбайт/с — в 800 раз больше, чем у первого поколения.

Производительность NVLink зависит от аппаратных средств и коммуникационных библиотек, в частности, от библиотеки NVIDIA Collective Communication Library (NCCL) для ускорения взаимодействия между ускорителями в топологиях с одним и несколькими узлами. NCCL поддерживает вертикальное и горизонтальное масштабирование, а также включает в себя автоматическое распознавание топологии и оптимизацию передачи данных.

Технология NVLink Fusion призвана обеспечить гиперскейлерам доступ ко всем проверенным в производстве технологиям масштабирования NVLink. Она позволяет интегрировать кастомные микросхемы (CPU и XPU) с технологией вертикального и горизонтального масштабирования NVIDIA NVLink и стоечной архитектурой для развёртывания кастомных ИИ-инфраструктур.

Технология охватывает NVLink SerDes, чиплеты, коммутаторы и стоечную архитектуру, предлагая универсальные решения для конфигураций кастомных CPU, кастомных XPU или комбинированных платформ. Модульное стоечное решение OCP MGX, позволяющее интегрировать NVLink Fusion с любым сетевым адаптером, DPU или коммутатором, обеспечивает заказчикам гибкость в построении необходимых решений, заявляет NVIDIA.

NVLink Fusion поддерживает конфигурации с кастомными CPU и XPU с использованием IP-блоков и интерфейса UCIe, предоставляя заказчикам гибкость в реализации интеграции XPU на разных платформах. Для конфигураций с кастомными CPU рекомендуется интеграция с IP NVLink-C2C для оптимального подключения и производительности GPU. При этом предлагаются различные модели доступа к памяти и DMA.

NVLink Fusion использует преимущества обширной экосистемы кремниевых чипов, в том числе от партнёров по разработке кастомных полупроводников, CPU и IP-блоков, что обеспечивает широкую поддержку и быструю разработку новых решений. Основанная на десятилетнем опыте использования технологии NVLink и открытых стандартах архитектуры OCP MGX, платформа NVLink Fusion предоставляет гиперскейлерам исключительную производительность и гибкость при создании ИИ-инфраструктур, подытожила NVIDIA.

При этом основным применением NVLink Fusion с точки зрения NVIDIA, по-видимому, должно стать объединение сторонних чипов с её собственными, а не «чужих» чипов между собой. Более открытой альтернативой NVLink должен стать UALink с дальнейшим масштабированием посредством Ultra Ethernet.

Постоянный URL: http://servernews.ru/1128089

06.08.2025 [15:23], Руслан Авдеев

Meta✴ заказала ИИ-серверы Santa Barbara с кастомными ASIC

Meta✴ разместила заказ на поставку ИИ-серверов нового поколения на базе ASIC-модулей у тайваньского производителя Quanta Computer. Компания заказала до 6 тыс. стоек и намерена начать развёртывание серверов Santa Barbara к концу 2025 года, сообщает Datacenter Dynamics. Новые серверы заменят существующие решения Minerva.

В отчёте также указано, что серверы нового поколения будут иметь TDP более 180 кВт и потребуют тщательно кастомизированных корпусов, систем водяного охлаждения и других компонентов. Все компоненты будут поставляться компанией SynMing Electronics. По данным отчёта, поставкой ASIC займётся Broadcom, а сборкой серверов — Quanta Computer. Окончательный дизайн будет утверждён в текущем квартале, а пробное производство начнётся в IV квартале 2025 года.

Как сообщают «источники в цепочке поставок», IT-гигант завершил разработки проектных решений для двух–трёх новых серверов с кастомными ИИ-ускорителями. Хотя прямо ASIC не упоминается, Meta✴ давно работает над собственными ИИ-чипами Meta ✴ Training and Inference Accelerator (MTIA), которые разрабатываются с 2023 года. Компания рассчитывает внедрить чипы в собственные дата-центры, чтобы снизить зависимость от NVIDIA.

Источник изображения: UX Indonesia/unspalsh.com

С началом бума генеративного ИИ Meta✴ стремится расширить серверную ИИ-инфраструктуру и самостоятельно разрабатывать ASIC. В феврале 2024 года компания, похоже, искала специалистов по ASIC-решениям, размещая объявления о поиске соответствующих сотрудников в Индии и Калифорнии. В марте 2025 года южнокорейская FuriosaAI, занимающийся разработкой микросхем, отклонила предложение Meta✴ о покупке бизнеса за $800 млн.

На прошлой неделе были опубликованы результаты за II квартал 2025 года, согласно которым выручка составила $47,5 млрд, что на 22 % больше по сравнению с аналогичным периодом прошлого года. Прибыль компании выросла на 36 %, составив $18,3 млрд за три месяца, заканчивающиеся 30 июня, но расходы Meta✴ также увеличились на 12 %, до $27 млрд, что связано с ростом затрат на дата-центры, серверы и исследователей в области ИИ.

На пресс-конференции, посвящённой финансовым результатам компании, было объявлено, что наибольшая часть капитальных затрат в будущем будет направлена на серверы. Также было заявлено, что компания всё ещё решает, когда будут развёртываться новые мощности.

Постоянный URL: http://servernews.ru/1127182

26.07.2025 [15:54], Сергей Карасёв

OCP запустила проект OCS по развитию оптической коммутации в ИИ ЦОД

Некоммерческая организация Open Compute Project Foundation (OCP) анонсировала проект Optical Circuit Switching (OCS), направленный на ускорение внедрения технологий фотонной (оптической) коммутации в ИИ ЦОД. Цель инициативы — повышение пропускной способности, снижение задержек и улучшение энергоэффективности инфраструктур с интенсивным обменом данными.

Проект возглавляют iPronics и Lumentum, а в число его участников входят Coherent, Google, Lumotive, Microsoft, nEye, NVIDIA, Oriole Networks и Polatis (Huber+Suhner). Нужно отметить, что разработкой фотонных решений для высоконагруженных платформ ИИ и дата-центров занимаются многие компании. В их число входят DustPhotonics, Oriole Networks, Lightmatter, Celestial AI, Xscape Photonics, Ayar Labs и пр.

Источник изображений: Google

В отличие от традиционной электрической коммутации, решение OCS базируется на оптической маршрутизации данных. Новый интерконнект планируется использовать в кластерах ИИ, поддерживающих ресурсоёмкие нагрузки, включая генеративные сервисы и большие языковые модели (LLM). Предполагается, что проект OCS позволит создать масштабируемое и надёжное решение для обработки больших объёмов данных, поддерживающее бесшовную интеграцию с различными сетевыми протоколами. Упомянута совместимость с такими программными фреймворками, как gNMI, gNOI, gNSI и OpenConfig.

В заявлении OCP говорится, что инициатива OCS будет способствовать сотрудничеству между ведущими игроками отрасли, гиперскейлерами и поставщиками для создания совместимых открытых продуктов, которые помогут стимулировать инновации в области оптических сетей. В частности, планируется выпуск компактных и гибко настраиваемых оптических коммутаторов для ИИ ЦОД. На практике оптическую коммутацию массово использует, по-видимому, только Google. В 2022 году компания рассказала об OCS Apollo, которые используют MEMS-переключатели для перенаправления лучей света. Эти коммутаторы обслуживают кластеры TPU.

Постоянный URL: http://servernews.ru/1126608

17.06.2025 [15:31], Сергей Карасёв

Представлен российский OCP-сервер Delta Serval на базе Intel Xeon 6

Российский разработчик и производитель IT-оборудования Delta Computers объявил о начале серийного выпуска двухпроцессорных 2OU-серверов Delta Serval. Системы предназначены для НРС-задач, виртуализации, а также использования в составе облачных инфраструктур.

В основу Delta Serval положена аппаратная платформа Intel Xeon 6. При этом заказчики могут выбирать между процессорами Xeon Granite Rapids-SP (6500P/6700P) с производительными Р-ядрами и Xeon Sierra Forest с энергоэффективными Е-ядрами (6700E) с TDP 350 Вт. Поддерживается до 8 Тбайт памяти DDR5-6400 в виде 32 модулей. Возможно использование MRDIMM-8000.

В зависимости от конфигурации могут быть установлены до восьми U.2 SSD (PCIe 5.0, NVMe) с толщиной 7 мм или до четырёх таких SSD с толщиной 15 мм. Кроме того, есть два коннектора для SSD формата M.2 2280 с интерфейсом PCIe. Доступны один слот OCP 3.0 PCIe 5.0 и четыре слота PCIe 5.0 x16 для карт HHHL.

Источник изображений: Delta Computers

Сервер оснащён портом USB 3.0 Type-A и интерфейсом miniDP, а также сетевым портом управления 1GbE. Задействована система гибридного охлаждения Delta Hybrid Cooling с резервированием вентиляторов по схеме N+1 (с поддержкой горячей замены). По заявлениям Delta Computers, машина может функционировать на максимальной частоте без деградации и перегрева процессоров при температуре в холодном коридоре до +45 °C. Применяется фирменное микропрограммное обеспечение Delta BIOS и Delta BMC.

Среди ключевых преимуществ новинки разработчик выделяет большое количество вычислительных ядер (до 172 P-ядер или до 288 E-ядер), возможность гибкой адаптации под требования заказчика, высокую плотность компоновки и поддержку интеграции с новыми аппаратными и программными платформами.

Постоянный URL: http://servernews.ru/1124528

01.06.2025 [02:06], Сергей Карасёв

Петабайтные E2 SSD готовы со временем потеснить HDD в ЦОД

Организации Storage Networking Industry Association (SNIA) и Open Compute Project (OCP), по сообщению ресурса StorageReview, разработали новый форм-фактор твердотельных накопителей, получивший обозначение E2. Устройства данного типа будут обладать большой вместимостью, достигающей 1 Пбайт. Для сравнения, Seagate поставила себе цель довести ёмкость HDD до 100 Тбайт к 2030 году, тогда как Pure Storage уже подготовила 150-Тбайт SSD.

Стандарт E2 создаётся для «тёплого» хранения данных. Устройства нового формата займут промежуточное положение между HDD большой ёмкости и традиционными корпоративными SSD. Предполагается, что изделия E2 обеспечат оптимальный баланс производительности, плотности и стоимости при развёртывании крупномасштабных озёр данных для приложений ИИ, аналитики и других задач, которым требуются огромные массивы информации. Добиться этого планируется путём использования большого количества чипов QLC NAND в одном накопителе.

Источник изображения: OCP / Micron

Физические размеры накопителей E2 составляют 200 мм в длину, 76 мм в высоту и 9,5 мм в толщину. Применяется коннектор EDSFF, который также используется в устройствах E1 и E3. Отмечается, что по высоте SSD и расположению разъёма (27,7 мм от нижней части) формат E2 соответствуют стандарту E3, тогда как размещение светодиодного индикатора идентично E1.

Источник изображения: OCP / Meta✴

Изделия нового типа предназначены прежде всего для установки в серверы с высокой плотностью компоновки. В этом случае система типоразмера 2U сможет нести на борту до 40 устройств E2, что в сумме даст до 40 Пбайт пространства для хранения данных. Новый стандарт предусматривает подключение посредством интерфейса PCIe 6.0 или выше с четырьмя линиями.

Источник изображения: OCP / Pure Storage

Заявленная скорость передачи информации может достигать 10 000 Мбайт/с в расчёте на один накопитель. Энергопотребление — до 80 Вт: это означает, что в сервере с 40 такими накопителями только для подсистемы хранения данных потребуется мощность до 3,2 кВт. Таким образом, понадобится эффективное охлаждение — по всей видимости, на основе жидкостных систем.

Первая версия спецификации E2 будет готова летом нынешнего года. Значительный вклад в разработку стандарта вносит Micron, которая будет использовать его в своих будущих SSD. Pure Storage и Micron представили прототипы E2 в ходе мероприятия OCP Storage Tech Talk. Проприетарные SSD-модули, отчасти напоминающие E2, уже начали медленно и выборочно вытеснять HDD из дата-центров Meta✴. На подходе и другие гиперскейлеры.

Постоянный URL: http://servernews.ru/1123732

27.05.2025 [11:48], Сергей Карасёв

Сбербанк инициировал банкротство российского производителя OCP-серверов Gagar>n

Сбербанк, по сообщению ресурса IT Channel News, направил в арбитражный суд заявление о признании ООО «Гагар.ин» банкротом в связи с возникшей задолженностью. Сама компания также намерена обратиться в суд с заявлением о собственной несостоятельности.

ООО «Гагар.ин» — юридическое лицо компании Gagar>n, российского разработчика и производителя OCP-оборудования. Продукты компании входят в реестр Минпромторга России. Gagar>n реализует модель полного цикла, включающую самостоятельную разработку механики, схемотехники, электроники и встроенного ПО.

Сбербанк требует от ООО «Гагар.ин» 106,04 млн руб. Кроме того, на этапе рассмотрения в адрес поставщика серверов находятся иски от ряда других компаний, в число которых входят: «Мастерпост» (312,43 тыс. руб.), «Треолан» (2,1 млн руб.), «КМС-Эксперт» (25,25 млн руб.), «Системы автоматизированного неинвазивного исследования» (4,37 млн руб.), «Матрикс электроника» (1,43 млн руб.), «Центр программных разработок РТсофт» (1,9 млн руб.), «Плексфорс» (1,32 млн руб.), ТД «Симметрон электронные компоненты» (почти 10 млн руб.), «О-Си-Эс-Центр» (344,25 тыс. руб.) и «Гран Груп» (4,2 млн руб.). Таким образом, общая сумма требований в рамках исков превышает 157 млн руб.

Источник изображения: Gagar>n

По итогам 2024 года ООО «Гагар.ин» получило выручку в размере 579 млн руб., что на 56,9 % меньше по сравнению с предыдущим годом. При этом компания показала чистые убытки на уровне 107 млн руб., тогда как в 2023-м была зафиксирована чистая прибыль в 262 млн руб. В 2024 году среднесписочная численность работников ООО «Гагар.ин» составила 112 человек — это на 12 сотрудников меньше, чем в 2023 году. По состоянию на 31 декабря 2024-го совокупные активы организации составляли 1,6 млрд руб., что на 27,1 млн руб. (на 1,7 %) больше, чем годом ранее.

Постоянный URL: http://servernews.ru/1123472

14.05.2025 [14:55], Сергей Карасёв

Представлена машина баз данных Postgres Pro Machine для высоконагруженных систем

Компания Postgres Professional анонсировала машину баз данных Postgres Pro Machine с модульной архитектурой, предназначенную для высоконагруженных систем. Проект по созданию платформы реализуется в партнёрстве с российским разработчиком и производителем IT-оборудования Delta Computers. В производство машины Postgres Professional инвестирует более 1,5 млрд руб.

Утверждается, что Postgres Pro Machine — первая в России платформа, которая может объединять четыре типа разных СУБД. В их число входят высоконагруженные базы данных, обработка аналитических запросов, оркестрация большого количества СУБД среднего размера и горизонтальное масштабирование (шардирование). При этом управлять всеми типами баз данных можно будет через единый графический интерфейс.

Конструкция Postgres Pro Machine предусматривает наличие ряда модулей: OLTP, DBaaS, HTAP, OLAP, а также блоков управления, хранения, коммутации и питания. Модуль OLTP, который станет доступен в III квартале текущего года, отвечает за такие функции, как работа с большими высоконагруженными базами, высокоскоростной интерконнект, синхронная реплика с минимальной задержкой.

Источник изображения: Postgres Professional

В свою очередь, модуль DBaaS (выйдет в I четверти 2026 года) обеспечит работу с большим количеством баз данных, бесшовное управление средой виртуализации, автоматизацию процессов управления, конфигурирования и масштабирования. Модуль HTAP (появится во II квартале 2026-го) будет включать горизонтальное масштабирование с использованием шардирования, работу с базами данных размером 2 Пбайт и более, строгие гарантии изоляции и согласованности данных на базе технологии Postgres Pro. Задачами модуля OLAP (станет доступен в III четверти 2026 года) названы: высокопроизводительная аналитика для данных (2 Пбайт и более), реализация ETL-задач, партицирование больших исторических данных, ведение полной истории изменений, строгие гарантии изоляции и согласованности данных на базе технологии Postgres Pro.

Модуль управления в числе прочего обеспечит мониторинг всех компонентов и отказоустойчивое исполнение. Задачи блока хранения — резервное копирование баз данных, хранение шаблонов виртуальных машин, интеграция со всеми продуктами экосистемы Postgres Pro. Модуль коммутации и питания предоставит выделенную сеть для управления оборудованием, централизованное питание по ОСР-стандарту, коммутацию с интерфейсами 100 Гбит/с и 400 Гбит/с. Стойка с оборудованием имеет стандартную ширину 600 мм и использует трёхфазное питание.

Отмечается, что благодаря глубокой синергии аппаратного уровня и программного обеспечения Postgres Pro Machine обеспечит рост быстродействия на 30 % и более по сравнению с существующими решениями. Компоненты системы работают на базе Postgres Pro Enterprise и поддерживают всю функциональность, доступную в соответствующем релизе. Среди возможностей — встроенная отказоустойчивость, пулер и балансировка соединений, резервное копирование и восстановление.

Модули DBaaS, HTAP и OLAP поддерживают горизонтальное масштабирование — при необходимости можно добавлять новые вычислительные узлы. Модуль OLTP горизонтально не масштабируется, но можно задействовать несколько таких блоков параллельно. Postgres Pro Machine использует единую модель авторизации и разграничения доступа на всех уровнях — от управления оборудованием до доступа к виртуальным машинам. Интеграция со службой корпоративного каталога выполняется на этапе пусконаладочных работ.

«Сейчас большинство российских компаний вынуждены поддерживать несколько различных технологических стеков для работы с базами данных — СУБД на виртуальных машинах; базы данных, работающие без дополнительного слоя виртуализации; аналитические СУБД; СУБД размером более 150 Тбайт. Postgres Pro Machine закроет все эти возможности в рамках одной системы, что обеспечит существенную экономию времени, денег и человеческих ресурсов заказчика», — отмечает заместитель генерального директора Postgres Professional.

Постоянный URL: http://servernews.ru/1122771

02.05.2025 [13:55], Сергей Карасёв

MSI представила многоузловые OCP-серверы на базе AMD EPYC 9005 Turin

Компания MSI анонсировала многоузловые серверы высокой плотности, выполненные в соответствии со стандартом OCP ORv3 (Open Rack v3). Дебютировали модели Open Compute CD281-S4051-X2 и Core Compute CD270-S4051-X4 на аппаратной платформе AMD EPYC 9005 Turin.

Решение Open Compute CD281-S4051-X2, выполненное в форм-факторе 2OU, представляет собой двухузловой сервер для инфраструктур гиперскейлеров. Каждый узел может оснащаться одним процессором EPYC 9005 с показателем TDP до 500 Вт и 12 модулями DDR5. Доступны до 12 посадочных мест для накопителей E3.S с интерфейсом PCIe 5.0 (NVMe). Говорится о поддержке CPU-радиаторов Extended Volume Air Cooling (EVAC) и 48-вольтной архитектуры питания ORv3 (48VDC).

Источник изображений: MSI

В свою очередь, Core Compute CD270-S4051-X4 (S4051D270RAU3-X4) — это четырёхузловой сервер стандарта Data Center Modular Hardware Systems (DC-MHS). Устройство имеет типоразмер 2U. Оно подходит для облачных вычислений, CDN-сетей, ИИ-инференса и машинного обучения, виртуализации сетевых функций, телеком-приложений и пр.

Каждый узел новинки рассчитан на один чип EPYC 9005 с TDP до 400 Вт. Есть 12 слотов для модулей DDR5-6000 RDIMM/RIMM-3DS суммарным объёмом до 3 Тбайт, три фронтальных отсека для накопителей U.2 с интерфейсом PCIe 5.0 x4 (NVMe), два внутренних коннектора M.2 2280/22110 для SSD с интерфейсом PCIe 3.0 x2 (NVMe), а также слот PCIe 5.0 x16 OCP 3.0. Кроме того, каждый узел располагает контроллером ASPEED AST2600, сетевым портом управления 1GbE, разъёмами USB 2.0 Type-A и Mini DisplayPort, последовательным портом (USB Type-A).

Вся система Core Compute CD270-S4051-X4 оборудована двумя блоками питания мощностью 2700 Вт с сертификатом 80 PLUS Titanium. Установлены четыре вентилятора охлаждения с возможностью горячей замены. Диапазон рабочих температур — от 0 до +35 °C. Габариты составляют 448 × 87 × 747 мм.

Постоянный URL: http://servernews.ru/1122193

02.05.2025 [13:50], Сергей Карасёв

MiTAC анонсировала OCP-серверы на основе AMD EPYC Turin с воздушным и жидкостным охлаждением, а также edge-сервер на базе Intel Xeon Sapphire Rapids

Компания MiTAC Computing Technology представила OCP-серверы нового поколения C2810Z5 и C2820Z5, предназначенные для приложений ИИ и НРС. Устройства выполнены на аппаратной платформе AMD EPYC 9005 Turin.

Решение C2810Z5 типоразмера 2OU имеет двухузловую конструкцию. Каждый узел допускает установку одного процессора и 12 модулей оперативной памяти DDR5-6400. Доступны шесть отсеков для накопителей U.2 и два посадочных места для SSD стандарта E1.S. Предусмотрены слоты PCIe 5.0 x16 для карт FHHL, HHHL и OCP NIC 3.0. Устройство оснащено воздушным охлаждением. Данная модель подходит для развёртывания микросервисов в облачных средах.

В свою очередь, вариант C2820Z5 — это четырёхузловая система 2OU с технологией прямого жидкостного охлаждения. Каждый узел поддерживает два процессора EPYC 9005 Turin и 24 модуля памяти DDR5. Сервер подходит для высокопроизводительных вычислений.

Кроме того, MiTAC анонсировала семейство серверов Whitestone 2 (WS2): это, как утверждается, компактная, но мощная платформа, специально оптимизированная для сетей Open RAN и периферийных задач. Система выполнена в корпусе небольшой глубины формата 1U. Задействован процессор Intel Xeon поколения Sapphire Rapids.

Источник изображения: MiTAC

Предусмотрены восемь слотов для модулей DDR5. Во фронтальной части находятся четыре порта 25GbE SFP28 и восемь портов 10GbE SFP+. Говорится о поддержке IEEE 1588 v2, Sync-E и GPS для синхронизации. В тыльной части располагаются вентиляторы охлаждения в виде девяти сдвоенных блоков.

Постоянный URL: http://servernews.ru/1122194

01.05.2025 [00:45], Руслан Авдеев

Google готовит мегаваттные стойки с питанием 400 В и СЖО для ИИ-платформ будущего

Google представил технологию питания 400 В постоянного тока (DC) и систему жидкостного охлаждения пятого поколения Project Deschutes для стоек нового поколения, которы призваны поддержать стремительное развитие ИИ. В течение последних десяти лет компания использует питание 48 В DC, но переход к новому стандарту позволит повысить максимальную мощность на одну стойку со 100 кВт до 1 МВт.

Ожидается, что отдельные стойки с ИИ-системами будут потреблять свыше 500 кВт уже к 2030 году. Так, грядущий суперускоритель NVIDIA Rubin Ultra NVL576, который появится в 2027 году, будет «упакован» в стойку нового поколения Kyber и потреблять порядка 600 кВт. Google, надо полагать, разработает собственную модификацию данного ускорителя, адаптированного к её дата-центрам, как уже сделала для GB200 NVL72.

Использование 400 В позволяет задействовать цепочку поставок, используемую индустрией электромобилей, что способствует снижению затрат и повышению качества. Совместно с Meta✴ и Microsoft компания Google работает над проектом Mt. Diablo, в рамках которого вырабатываются общие стандарты электрических и механических интерфейсов. Первая версия спецификаций (v0.5) будет доступна для отраслевого обсуждения в мае 2025 года.

Источник изображения: Google

Подсистема питания в Mt. Diablo вынесена в отдельный модуль (sidecar). Это увеличивает полезное пространство в серверных стойках, позволяя целиком отдать их под ускорители, и повышает общую энергоэффективность приблизительно на 3 %, что в масштабах гиперскейлера очень существенно. В перспективе рассматривается переход на прямое распределение высоковольтного постоянного тока внутри ЦОД для ещё большей эффективности и повышения плотности.

Источник изображения: Google

С резким повышением энергопотребления чипов использование СЖО стало неизбежным. В последние семь лет Google развернула СЖО в более 2 тыс. кластеров TPU Pod. Впервые жидкостное охлаждение стало применяться для ИИ-ускорителей TPU v3, появившихся в 2018 году. Компания использует водоблоки, что позволяет практически удвоить плотность размещения вычислительных мощностей в сравнении с воздушным охлаждением. При переходе от TPU v2 к TPU v3 это также позволило вчетверо увеличить размер кластеров. СЖО применяются и для ускорителей Ironwood (TPU v7).

CDU-архитектура Project Deschutes, в которой используются резервные теплообменники и насосы, обеспечивает уровень доступности 99,999 %. Пятое поколение Project Deschutes Google планирует передать Open Compute Project (OCP) в 2025 году. Публикация спецификаций, проектных данных и рекомендаций по эксплуатации ускорит массовое внедрение СЖО в индустрии. В компании уверены, что совместные усилия помогут индустрии справиться с будущими вызовами в индустрии ИИ и масштабировать вычислительные мощности и дальше.

Постоянный URL: http://servernews.ru/1122109