Материалы по тегу: hardware

31.10.2024 [11:33], Сергей Карасёв

Cisco представила ИИ-сервер UCS C885A M8 на базе NVIDIA H100/H200 или AMD Instinct MI300X

Компания Cisco анонсировала сервер высокой плотности UCS C885A M8, предназначенный для решения задач в области ИИ, таких как обучение больших языковых моделей (LLM), тонкая настройка моделей, инференс, RAG и пр.

 Источник изображения: Cisco

Источник изображения: Cisco

Устройство выполнено в форм-факторе 8U. В зависимости от модификации устанавливаются два процессора AMD EPYC 9554 поколения Genoa (64 ядра; 128 потоков; 3,1–3,75 ГГц; 360 Вт) или два чипа EPYC 9575F семейства Turin (64 ядра; 128 потоков; 3,3–5,0 ГГц; 400 Вт). Доступны 24 слота для модулей DDR5-600 суммарным объёмом 2,3 Тбайт.

В максимальной конфигурации могут быть задействованы восемь SXM-ускорителей NVIDIA H100, H200 или AMD Instinct MI300X. Каждый ускоритель дополнен сетевым адаптером NVIDIA ConnectX-7 или NVIDIA BlueField-3 SuperNIC. Кроме того, в состав сервера входит DPU BlueField-3. Слоты расширения выполнены по схеме 5 × PCIe 5.0 x16 FHHL плюс 8 × PCIe 5.0 x16 HHHL и 1 × OCP 3.0 PCIe 5.0 x8 (для карты X710-T2L 2x10G RJ45 NIC).

 Источник изображения: Cisco

Источник изображения: Cisco

Новинка оборудована загрузочным SSD вместимостью 1 Тбайт (M.2 NVMe), а также 16 накопителями U.2 NVMe SSD на 1,92 Тбайт каждый. Установлены два блока питания мощностью 2700 Вт и шесть блоков на 3000 Вт с возможностью горячей замены.

Cisco также представила инфраструктурные стеки AI POD, адаптированные для конкретных вариантов использования ИИ в различных отраслях. Они объединяют вычислительные узлы, сетевые компоненты, средства хранения и управления. Стеки, как утверждается, обеспечивают хорошую масштабируемость и высокую эффективность при решении ИИ-задач.

Постоянный URL: http://servernews.ru/1113296
30.10.2024 [23:59], Владимир Мироненко

Облако Google Cloud увеличило выручку на 35 % и компания готова вложить ещё $7 млрд в ЦОД и оборудование

Холдинг Alphabet, материнская структура Google, сообщил неаудированные финансовые результаты III квартала 2024 года, завершившегося 30 сентября. Alphabet заявил, что его инвестиции в ИИ окупаются, поскольку выручка облачного подразделения выросла на 35 %. Также значительно увеличилась выручка самого холдинга, значительно превысив прогнозы Уолл-стрит, благодаря чему его акции выросли в цене почти на 6 % на внебиржевых торгах во вторник.

Перед пресс-конференцией в среду гендиректор Alphabet Сундар Пичаи (Sundar Pichai) отметил, что «долгосрочная ориентация и инвестиции компании в ИИ» начинают приносить плоды как корпоративным клиентам, так и обычным потребителям.

Выручка Alphabet составила за квартал $88,27 млрд, превысив показатель аналогичного квартала в 2023 году на 15 %, а также консенсус-прогноз аналитиков, опрошенных LSEG, в размере $86,30 млрд. При этом доход Google Cloud вырос год к году на 35 % до $11,35 млрд, а операционная прибыль платформы увеличилась в семь раз до $1,9 млрд с $266 млн в прошлом году.

 Источник изображения: Google

Источник изображения: Google

Как отметила финансовый директор Alphabet Анат Ашкенази (Anat Ashkenazi), присоединившаяся к холдингу в июне после 23 лет работы в фармацевтической компании Eli Lilly, набор облачных услуг Google Workspace показал сильный рост в III квартале. При этом набор облачных инструментов для управления данными и ИИ опередил по темпам роста показатель облачного подразделения в целом.

Ашкенази также сообщила, что капитальные затраты Alphabet в 2025 году будут выше, чем в этом году. В III квартале капзатраты Alphabet выросли на 62 % до $13 млрд. Большая часть этих расходов пошла на «техническую инфраструктуру, из которых около 60 % пришлось на серверы, а 40 % — на ЦОД и сетевое оборудование.

 Источник изображения: Google

Источник изображения: Google

По словам финдиректора, Google взяла на себя обязательство вложить в текущем квартале более $7 млрд в запланированные инвестиции в ЦОД, из которых $6 млрд будут инвестированы в объекты на территории США. Компания планирует оптимизировать «физическое присутствие и повысить эффективность технической инфраструктуры», а также «оптимизировать операции всей компании с помощью ИИ», сказала Ашкенази. Ожидается, что в IV квартале капзатраты будут такими же, как в III квартале.

Чистая прибыль Alphabet выросла до $26,3 млрд или $2,12 на акцию, по сравнению с $19,7 млрд или $1,55 на акцию в аналогичном квартале прошлого года при консенсус-прогнозе аналитиков, опрошенных LSEG, в размере $1,85 прибыли на акцию.

Постоянный URL: http://servernews.ru/1113288
30.10.2024 [18:23], Руслан Авдеев

ИИ на газу: рост рынка ЦОД подстегнёт спрос на природный газ в США

Стремительный рост рынка дата-центров в США, связанный с активным внедрением ИИ, ведёт и к увеличению спроса на природный газ. Как сообщается в новом докладе S&P Global на основе модели роста спроса на электроэнергию для ЦОД, если 50 % прироста ёмкости объектов будет обеспечиваться газовыми генераторами и электростанциями, то национальной сети дополнительно потребуется до 50 ГВт.

В результате спрос на природный газ для поддержки работы ЦОД может вырасти до 85 млн м3/день, хотя показатели могут меняться в зависимости от объектов и доступности других источников энергии. Так, если доля природного газа в цепочках генерации энергии будет больше, чем прочих энергоносителей, спрос только дата-центров к 2030 году может подняться и до 170 млн м3/день.

Это противоречит целям по снижению углеродных выбросов, поставленным гиперскейлерам вроде Google, Microsoft и Amazon (AWS), которые, вероятно, те всё равно не смогут добиться. Хотя сжигание природного газа считается более экологичным, чем других видов ископаемого топлива, от CO2 всё равно никуда не деться. Впрочем, в S&P считают, что природный газ будет служить скорее резервным источником в условиях использования возобновляемой энергетики, отличающейся нестабильными поставками электричества.

 Источник изображения: Frantzou Fleurine/unsplash.com

Источник изображения: Frantzou Fleurine/unsplash.com

Риски для таких проектов невелики, говорит S&P — газовые станции и генераторы могут использовать уже существующую инфраструктуру газопроводов, из-за чего проблемы с получением дополнительных разрешений на подключение будут минимальными, равно как и сопротивление местных жителей. Большинство подключений можно будет организовать в течение 12 месяцев — это гораздо меньше, чем в случае других проектов по генерации энергии. Это если не будет других проблем вроде нехватки ЛЭП и слабой экономики.

От более масштабного использования природного газа, вероятно, больше всего выиграют Северная Вирджиния и Техас (Даллас-Форт-Уорт), поскольку они ближе всего находятся к площадкам для его добычи — Marcellus и Permian Basin соответственно. Близость упрощает поставки топлива новым частным станциям, не зависящим от регулируемых властями коммунальных предприятий. Впрочем, развитие новых генерирующих мощностей в этих районах ещё слабо, хотя некоторые проекты уже есть. Также прогнозируется, что возобновляемая энергетика позволит к 2035 году вытеснить природный газ из энергосистемы PJM Interconnection, к которой относится и Вирджиния. В Техасе использование этого топлива останется устойчивым.

Рост спроса на электричество со стороны ЦОД должен способствовать и процветанию секторов транспортировки, хранения, переработки и т.п. Основными выгодоприобретателями станут компании вроде Enbridge, Kinder Morgan, TC Energy и Williams Cos. Операторы ЦОД уже местами переходят на природный газ для питания своих объектов. Летом в Wells Fargo прогнозировали, что бум ИИ ЦОД в США сыграет на руку поставщикам природного газа, а в марте EQT Corp и вовсе объявила, что газ сам по себе станет драйвером роста ЦОД.

Постоянный URL: http://servernews.ru/1113262
30.10.2024 [16:03], Руслан Авдеев

Equinix открыла первый ЦОД в Южной Африке и намерена построить ещё два в Таиланде

Компания Equinix запустила свой первый в Южной Африке ЦОД IBX. По информации Datacenter Dynamics, впервые анонсированный ещё в декабре 2022 года дата-центр официально заработал на прошлой неделе. Расположенный в городском округе Джермистон ЦОД JN1 Johannesburg IBX Data Center имеет около 1,9 тыс м2 колокейшн-площадей, но со временем площадь должна вырасти до 9,5 тыс. м2.

На начальном этапе речь идёт о 700 серверных стойках, но в итоге их число должно вырасти до 3475. Ёмкость поэтапно вырастет с 4 МВт до 20 МВт. Особенностью ЦОД является поддержка СЖО. Ранее компания заявляла, что намерена инвестировать в проект $160 млн. Первыми резидентами ЦОД названы Liquid Intelligent Technologies, Intelys Technology Group, Seacom и WorkOnline Communications, а также Johannesburg Internet Exchange (JINX), принадлежащая INX-ZA. В числе прочих операторов, действующих в окрестностях Йоханнесбурга — Digital Parks Africa, OADC, Digital Realty (Teraco), Vantage, NTT и Africa Data Centers.

По словам представителя Equinix в Южной Африке, новый ЦОД IBX станет мощной платформой для бизнеса и инноваций и поспособствует процветанию не только ЮАР, но и соседних стран. Новый объект должен стать ключевым центром перекрёстной связи на континенте для ряда наиболее быстро развивающихся стран и бизнесов. Первые шаги на континенте Equinix сделала в декабре 2021 года, купив компанию MainOne, «дочка» которой (MDXi) управляет четырьмя объектами общей площадью 5,95 тыс. м2 в Нигерии, Гане и Кот-д'Ивуаре.

 Источник изображения:  Simon Hurry/unsplash.com

Источник изображения: Simon Hurry/unsplash.com

ЮАР интересы Equinix не ограничиваются — компания расширяет присутствие в Таиланде, намереваясь поэтапно инвестировать здесь около $500 млн в течение следующих десяти лет. На покупку земли в Бангкоке уйдёт $34 млн. Приобретённых участков площадью 18,7 тыс. м2 хватит на строительство двух ЦОД IBX на 3375 стоек. Сроки окончания строительства пока не называются.

В компании утверждают, что Таиланд находится на переднем крае цифрового развития Юго-Восточной Азии и становится ключевым игроком в региональной цифровой экономике. Проект в Бангкоке — ещё один этап стратегии развития связей между Таиландом и остальной частью Юго-Восточной Азии. Новые проекты, предположительно, будут реализованы для обеспечения запросов корпоративных клиентов, а также крупнейших облачных провайдеров — драйвером развития станет близость Таиланда к Камбодже, Лаосу, Мьянме и Вьетнаму, а также «проактивной политике» правительства Cloud First Policy.

Сегодня Equinix уже присутствует в ряде стран и территорий Азиатско-Тихоокеанского региона: Индии, Индонезии, Японии, Сингапуре, Австралии, Южной Корее, Малайзии, в материковом Китае, а также в Гонконге. В Таиланде ведут деятельность и другие операторы ЦОД: Edgnex, Etix Everywhere, NextDC, NTT, STT GDC, CtrlS, Evolution DC, Telehouse, Singtel, True IDC, Digital Edge, Bridge DC, Edge Centres, Supernap и др.

Постоянный URL: http://servernews.ru/1113246
30.10.2024 [14:46], Руслан Авдеев

Портфолио ЦОД Blackstone выросло до $70 млрд, но компания намерена увеличить его ещё на $100 млрд

Blackstone продолжает пополнять портфолио своих дата-центров. По данным Datacenter Dynamics, сейчас она управляет активами ЦОД на $70 млрд, но уже готова увеличить их ещё на $100 млрд. Примечательно, как заметно планы и показатели компании изменились с прошлого квартала. В III календарном квартале 2024 года компания располагала ЦОД «всего» на $55 млрд и только-только намеревалась построить объекты на $70 млрд.

Впрочем, основной причиной роста в последние месяцы стало приобретение Blackstone компании AirTrunk за AU$24 млрд ($16 млрд). Как заявил покупатель, сегодня Blackstone является крупнейшим провайдером ЦОД в мире, с объектами в США, Европе, Индии и Японии. AirTrunk, по оценкам Blackstone, была крупнейшим оператором ЦОД в Азиатско-Тихоокеанском регионе.

 Источник изображения: Tuân Nguyễn Minh/unsplash.com

Источник изображения: Tuân Nguyễn Minh/unsplash.com

В компании заявили, что оценили потенциал новой сферы и всего за три года масштабировали соответствующий бизнес до «крупнейшего в мире». Впрочем, много ещё предстоит сделать. В частности, компания займётся решение проблем с энергоснабжением ЦОД, что со временем откроет дополнительные возможности для инвестиций. По словам представителя компании, ЦОД остались крупнейшим драйвером роста в III квартале в инфраструктурных проектах, связанных с недвижимостью, а также для компании в целом.

Тот факт, что у компании оказались масштабные запасы капитала, стало огромным конкурентным преимуществом — на покупку и развитие соответствующих бизнесов требуется немало средств. По данным компании, с момента покупки QTS за $10 млрд в 2021 году, ёмкость арендуемых мощностей её ЦОД выросла в восемь раз. При этом Blacskstone располагает не только ЦОД, но и сопутствующей инфраструктурой, доступом к энергии и прочим активам. В Blackstone утверждают, что компания является ведущим поставщиком финансирования для приблизительно 15 % всех проектов возобновляемой энергетики в США за последние 12 месяцев.

Помимо QTS и AirTrunk, Blackstone неоднократно инвестировала и в другие проекты, связанные с ЦОД, включая Vnet, Lumina CloudInfra, Copeland, Park Place Technologies и Winthrop Technologies, а также имеет совместные инвестиционные проекты с COPT, Digital Realty и другими компаниями. Так, Blackstone вложит £10 млрд в создание крупнейшего ЦОД в Европе ЦОД в Великобритании.

Постоянный URL: http://servernews.ru/1113237
30.10.2024 [13:53], Владимир Мироненко

Квартальные показатели AMD превысили прогнозы аналитиков, но инвесторы остались недовольны — акции упали на 7 %

Advanced Micro Devices (AMD) сообщила финансовые результаты III квартала, завершившегося 28 сентября 2024 года. Несмотря на то, что прибыль совпала с прогнозами, а выручка немного превзошла ожидания Уолл-стрит, акции компании упали после оглашения итогов на 7 %, поскольку инвесторов не устроил прогноз на IV квартал и ожидания по выпуску ИИ-ускорителей в 2025 году.

Выручка AMD в III квартале составила $6,82 млрд, что выше результата аналогичного квартала в 2023 году на 18 %, а также выше консенсус-прогноза аналитиков, опрошенных LSEG, составившего $6,71 млрд.

 Источник изображений: AMD

Источник изображений: AMD

Чистая прибыль (GAAP) в размере $771 млн или 47 центов на акцию превысила на 158 % показатель III квартала прошлого года, равный $299 млн (18 центов на акцию). Скорректированная прибыль (Non-GAAP) равняется $1,50 млрд или $0,92 на акцию, что на 33 % больше показателя годичной давности и совпало с консенсус-прогнозом аналитиков, предоставленным LSEG.

«Мы добились сильных финансовых результатов в III квартале с рекордной выручкой, обусловленной ростом продаж продуктов для ЦОД EPYC и Instinct, а также высоким спросом на наши процессоры Ryzen для ПК», — заявила генеральный директор AMD д-р Лиза Су (Lisa Su).

Выручка компании в сегменте ЦОД выросла более чем в два раза (на 122 %) год к году и на 25 % последовательно, составив $3,5 млрд. Драйверами роста были рост поставок ускорителей AMD Instinct и увеличение продаж процессоров AMD EPYC. В отчётном квартале продажи чипов для ЦОД принесли AMD более половины выручки.

Лиза Су не назвала конкретные цифры продаж, отметив, что выручка от реализации ускорителей AMD Instinct в минувшем квартале составила более $1,5 млрд. Для сравнения, во II квартале было продано AMD Instinct на более, чем $1 млрд.

Продажи в сегменте встраиваемых систем упали год к году на 25% до $927 млн, поскольку клиенты привели к норме уровень запасов. Впрочем, здесь зафиксированы признаки восстановления, так как продажи выросли последовательно на 8 %. Сегмент клиентских решений увеличил выручку год к году на 29 % до $1,9 млрд, а в игровом сегменте выручка упала год к году на 69 % до $462 млн.

В IV квартале 2024 года AMD ожидает, что выручка составит около $7,5 млрд ± $300 млн, что в средней точке выше прошлогоднего показателя на 22 % и соответствует консенсус-прогнозу аналитиков Уолл-стрит, ожидающим $1,16 скорректированной прибыли (Non-GAAP) на акцию при $7,54 млрд выручки. Также AMD повысила прогноз продаж по ИИ-ускорителям до $5 млрд в 2025 году.

Постоянный URL: http://servernews.ru/1113253
30.10.2024 [13:08], Руслан Авдеев

DigitalBridge купит британского строителя и оператора ЦОД Yondr

Управляющая альтернативными активами компания DigitalBridge Group сообщила о заключении соглашения о покупке Yondr Group через один из своих инвестиционных фондов. По данным Bloomberg, сделка будет закрыта уже в начале 2025 года. Сообщается, что Yondr продолжит действовать в качестве независимой структуры в составе портфеля DigitalBridge, уже включающего компании Vantage, Switch, DataBank, Scala, а также другие бизнесы.

По словам представителя DigitalBridge, активы Yondr и крепкие связи компании с клиентами из числа ведущих гиперскейлеров будут способствовать планам по развитию цифровой инфраструктуры. Yondr расширит портфолио ЦОД, принадлежащих DigitalBridge, и усилит возможности компании поддерживать проекты гиперскейлеров. Вместе компании смогут заработать на растущем спросе на дата-центры гиперскейл-класса, подогреваемом развитием ИИ, облачных вычислений и продолжающейся цифровой трансформацией в самых разных отраслях.

 Источник изображения: Yondr

Источник изображения: Yondr

Лондонская Yondr принадлежит Cathexis, Apollo Global Management и Mubadala и занимается как строительством, так и управлением ЦОД. Компания реализует проекты в Вирджинии (США), Великобритании, Малайзии, Японии, Германии и Индии. Согласно пресс-релизу более 420 МВт ёмкостей Yondr выделено на нужды гиперскейлеров, а в перспективе есть возможность увеличить ёмкость до более 1 ГВт.

Эксклюзивным финансовым консультантом Yondr выступила Citi, а юридическим советником — White & Case LLP. Linklaters, Deloitte, Ramboll и Nomura были юридическими, финансовыми, техническими и финансовыми консультантами DigitalBridge. Пока непонятно, как скажется сделка на бизнесе фонда Mubadala Investment Co. — в августе он сообщал, что намерен инвестировать в Yondr.

Постоянный URL: http://servernews.ru/1113233
30.10.2024 [12:00], Сергей Карасёв

NVIDIA представила эталонные архитектуры для корпоративных ИИ-фабрик

Компания NVIDIA анонсировала инициативу Enterprise Reference Architectures (Enterprise RA), в рамках которой партнёры и заказчики смогут использовать эталонные архитектуры для построения собственных ИИ-платформ корпоративного уровня, рассчитанных на ресурсоёмкие нагрузки.

NVIDIA отмечает, что на фоне перехода от вычислений общего назначения к ускоренным вычислениям предприятия сталкиваются с различными трудностями при проектировании и развёртывании инфраструктуры ЦОД. Это затрудняет разработку долгосрочных стратегий и снижает эффективность инвестиций. Инициатива Enterprise RA призвана решить проблемы.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Эталонные архитектуры Enterprise RA помогут организациям минимизировать ошибки при проектировании так называемых фабрик ИИ (дата-центров для задач ИИ), предоставляя комплексные рекомендации по аппаратному и программному обеспечению, а также подробные указания по оптимальным конфигурациям серверов, кластеров и сетей. В результате клиенты смогут снизить затраты и сократить время, необходимое для построения вычислительной ИИ-инфраструктуры нового поколения.

Среди преимуществ предлагаемого подхода названы масштабируемость и управляемость, высокий уровень безопасности (применяется принцип нулевого доверия), оптимальная производительность, снижение сложности систем и ускоренный выход на рынок. Эталонные архитектуры спроектированы таким образом, чтобы их можно было легко модернизировать в будущем. Говорится о совместимости с различными сторонними аппаратными и программными компонентами, но в перечень рекомендаций входят прежде всего решения самой NVIDIA, включая:

  • Сертифицированные серверы с ИИ-ускорителями на основе GPU разработки NVIDIA;
  • Оптимизированная сетевая платформа на базе NVIDIA Spectrum-X AI Ethernet и NVIDIA BlueField-3 DPU;
  • Программные компоненты NVIDIA AI Enterprise, в том числе микросервисы NVIDIA NeMo и NVIDIA NIM для быстрого создания и развёртывания приложений ИИ.

Решения на базе NVIDIA Enterprise RA будут предлагаться партнёрами NVIDIA, включая Dell, НРЕ, Lenovo и Supermicro.

Постоянный URL: http://servernews.ru/1113229
30.10.2024 [11:49], Сергей Карасёв

OpenAI разрабатывает собственные ИИ-чипы совместно с Broadcom и TSMC, а пока задействует AMD Instinct MI300X

Компания OpenAI, по информации Reuters, разрабатывает собственные чипы для обработки ИИ-задач. Партнёром в рамках данного проекта выступает Broadcom, а организовать производство изделий планируется на мощностях TSMC ориентировочно в 2026 году.

Слухи о том, что OpenAI обсуждает с Broadcom возможность создания собственного ИИ-ускорителя, появились минувшим летом. Тогда говорилось, что эта инициатива является частью более масштабной программы OpenAI по увеличению вычислительных мощностей компании для разработки ИИ, преодолению дефицита ускорителей и снижению зависимости от NVIDIA.

Как теперь стало известно, OpenAI уже несколько месяцев работает с Broadcom над своим первым чипом ИИ, ориентированным на задачи инференса. Соответствующая команда разработчиков насчитывает около 20 человек, включая специалистов, которые ранее принимали участие в проектировании ускорителей TPU в Google, в том числе Томаса Норри (Thomas Norrie) и Ричарда Хо (Richard Ho). Подробности о проекте не раскрываются.

Reuters, ссылаясь на собственные источники, также сообщает, что OpenAI в дополнение к ИИ-ускорителям NVIDIA намерена взять на вооружение решения AMD, что позволит диверсифицировать поставки оборудования. Речь идёт о применении изделий Instinct MI300X, ресурсы которых будут использоваться через облачную платформу Microsoft Azure.

 Источник изображения: Unsplash

Источник изображения: Unsplash

Это позволит увеличить вычислительные мощности: компания OpenAI только в 2024 году намерена потратить на обучение ИИ-моделей и задачи инференса около $7 млрд. Вместе с тем, как отмечается, OpenAI пока отказалась от амбициозных планов по созданию собственного производства ИИ-чипов. Связано это с большими финансовыми и временными затратами, необходимыми для строительства предприятий.

Постоянный URL: http://servernews.ru/1113232
29.10.2024 [20:28], Сергей Карасёв

Раскрыты подробности архитектуры ИИ-кластера xAI Colossus со 100 тыс. ускорителей NVIDIA H100

Портал ServeTheHome рассказал подробности об архитектуре вычислительного кластера xAI Colossus, предназначенного для обучения крупных ИИ-моделей. Эта система использует 100 тыс. NVIDIA H100, а в дальнейшем количество ускорителей планируется увеличить вдвое. Это самый крупный из известных ИИ-кластеров на текущий момент. Оборудование для него поставили компании Dell и Supermicro.

Стартап xAI, курируемый Илоном Маском (Elon Musk), объявил о запуске суперкомпьютера Colossus в начале сентября нынешнего года. Утверждается, что на создание системы потребовалось всего 122 дня. Причём с момента установки первой стойки с серверами до начала обучения ИИ-моделей прошло только 19 суток. Впрочем, как отмечают эксперты, поскольку машина является «однозадачной», т.е. в отличие от традиционных суперкомпьютеров предназначенной только для работы с ИИ, ускорить строительство было не так уж сложно, хотя результат всё равно впечатляющий.

Как сообщается, в составе Colossus применены серверы на платформе NVIDIA HGX H100, оборудованные системой жидкостного охлаждения. Каждый узел Supermicro серии TNHR2-LCC типоразмера 4U содержит восемь ускорителей NVIDIA H100 и два CPU. Узел разделён на две половинки, одна с CPU и PCIe-коммутаторами и одна с HGX-платой, которые могут извлекаться независимо для простоты обслуживания. CPU, коммутаторы и ускорители охлаждаются посредством СЖО.

 Источник изображения: Supermicro

Источник изображения: Supermicro

Вентиляторы в шасси тоже есть. Воздух от них попадает на теплообменники на задней двери, которые уносят остаточное тепло. Холодных и горячих коридоров в ЦОД нет, воздух имеет одинаковую температуру во всём зале. В нижней части стоек располагается ещё один 4U-блок Supermicro для CDU с резервированием и поддержкой горячей заменой насосов. Каждый сервер имеет четыре блока питания с резервированием и возможностью горячей замены, которые подключены к трёхфазным PDU.

Одна стойка объединяет восемь узлов NVIDIA HGX H100, между которыми располагаются коллекторы СЖО в формате 1U. Таким образом, каждая стойка насчитывает 64 экземпляра H100. Стойки организованы в группы по восемь штук, которые образуют малые кластеры из 512 ускорителей H100. Они в свою очередь объединены в т.н. «острова» по 25 тыс. ускорителей, каждому из которых полагается собственный машинный зал. Общее количество стоек в составе Colossus превышает 1500.

Помимо узлов с ускорителями также есть CPU-узлы и узлы хранения All-Flash (1U). Как отмечает NVIDIA, в кластере Colossus задействована сетевая платформа Spectrum-X Ethernet. Применены коммутаторы Spectrum-X SN5600 и сетевые карты на базе чипа BlueField-3. Компания говорит об использовании трёхуровневой Ethernet-сети с 400GbE-подключением, но точная топология не указана. Судя по всему, выделенной сети для работы с хранилищем не предусмотрено. Каждом ускорителю полагается один 400GbE-адаптер SuperNIC, который и объединяет их в RDMA-сеть. Кроме того, у каждого GPU-узла есть ещё один 400GbE DPU, а также подключение к сервисной сети. Сетевые карты находятся в собственных лотках, благодаря чему их можно заменять без демонтажа шасси. По словам NVIDIA, уровень утилизации сети достигает 95 %.

В качестве энергетического буфера между электросетью и суперкомпьютером используются аккумуляторные банки Tesla Megapack ёмкостью 3,9 МВт·ч каждый. Они необходимы для того, чтобы компенсировать всплески потребляемой мощности, когда нагрузка на ускорители резко возрастает в силу выполняемых ИИ-задач. Впрочем, вероятно, есть и ещё одна причина для такого решения — на первом этапе Colossus был лишён подключения к основной энергосети и в вопросе питания во многом полагался на генераторы.

Постоянный URL: http://servernews.ru/1113159