Материалы по тегу: hpc

05.05.2024 [13:56], Сергей Карасёв

Власти США продали на аукционе 5,34-ПФлопс суперкомпьютер Cheyenne из-за растущего числа сбоев и протечек СЖО

Администрация общих служб США (GSA) реализовала на аукционе НРС-систему под названием Cheyenne, которая была введена в строй в Центре суперкомпьютерных вычислений NCAR-Wyoming (NWSC) штата Вайоминг в 2016 году. Стоимость лота составила $480 085, тогда как затраты на строительство машины оцениваются как минимум в $25 млн.

Cheyenne стал одним из последних суперкомпьютеров компании Silicon Graphics International (SGI). Корпорация HPE приобрела эту фирму после того, как Cheyenne был смонтирован, но до фактического запуска системы в эксплуатацию. На момент начала работы производительность комплекса составляла 5,34 Пфлопс, что соответствовало 20 месту в актуальном тогда списке ТОР500.

Cheyenne представляет собой кластер SGI ICE XA с 4032 узлами, каждый из которых содержит два процессора Intel Xeon E5-2697v4 Broadwell (18C/36; 2,3 ГГц). Таким образом, суммарное количество ядер достигает 145 152. Применяется оперативная память DDR4-2400 ECC общей ёмкостью 313 Тбайт (4890 модулей на 64 Гбайт). В состав машины изначально входило хранилище данных вместимостью 40 Пбайт. Энергопотребление — приблизительно 1,7 МВт. Задействована система жидкостного охлаждения.

 Источник изображения: GSA

Источник изображения: GSA

Две стойки управления с воздушным охлаждением состоят из 26 серверов типоразмера 1U (20 со 128 Гбайт ОЗУ и ещё 6 с 256 Гбайт ОЗУ), 10 коммутаторов и двух блоков питания. Суперкомпьютер эксплуатировался с 12 января 2017 года по 31 декабря 2023-го, решая задачи в области изменений климата и в других сферах, связанных с науками о Земле. Cheyenne превзошёл свой запланированный срок службы: в заявлении NWSC говорилось, что он будет эксплуатироваться до 2021 года. Однако к концу 2023-го количество сбоев и проблем стало слишком большим.

В описании лота говорится, что «примерно 1 % узлов столкнулись с отказами за последние шесть месяцев», в основном из-за модулей памяти. Кроме того, система испытывает ограничения по техническому обслуживанию из-за неисправных быстроразъёмных соединений, вызывающих протечки воды. Таким образом, «учитывая затраты и время простоя, связанные с устранением проблем», дальнейшее использование комплекса признано нецелесообразным, в связи с чем он пущен с молотка.

Вместе с тем, как отмечает Tom's Hardware, новый владелец суперкомпьютера может реализовать его основные компоненты на вторичном рынке. Например, стоимость чипов Xeon E5-2697 v4 на eBay составляет около $50, а модулей DDR4-2400 ECC ёмкостью 64 Гбайт — примерно $65. То есть, по самым скромным подсчётам, только эти компоненты могут принести новому владельцу суперкомпьютера приблизительно $700 тыс. без учёта затрат на демонтаж и вывоз машины массой 43 т, а также на тестирование компонентов. Впрочем, массовый выброс на рынок CPU и RAM в таких объёмах приведёт к снижению цен.

Постоянный URL: http://servernews.ru/1104317
30.04.2024 [21:59], Руслан Авдеев

Водородные элементы запитают суперкомпьютерный центр Texas Advanced Computing Center

Демонстрационная платформа на водородных топливных элементах, запущенаная в Остине (Техас), запитает ЦОД суперкомпьютерного центра Texas Advanced Computing Center (TACC). Проект стал частью инициативы H2@Scale и будет моделью для будущих масштабных водородных проектов, объединяющих производство, распределение, хранение и использование данного вида топлива, передаёт Datacenter Dynamics.

Объект, расположенный в одном из кампусов Техасского университета, представляет собой плод сотрудничества GTI Energy, её «дочки» Frontier Energy, университетского Центра электромеханики, а также пары десятков акционеров, представляющих промышленные предприятия. Площадка будет генерировать водород, путём электролиза, используя энергию солнца и ветра, а также переработку метана с хранилищ отходов. Полученный водород будет применяться в топливных ячейках и для заправки парка электромобилей Toyota Mirai и БПЛА, тоже применяющих водородные топливные элементы.

Техасский университет не первое десятилетие работает над соответствующими технологиями и намерен поставлять для проекта квалифицированные кадры и инженерные данные. Помимо текущего проекта, исследовательская площадка пригодится и для развития других решений в «зелёной» водородной индустрии. А основанный в 2001 году центр TACC стал пристанищем для нескольких суперкомпьютеров, включая Frontera, JetStream2, Lonestar6, Maverick2 и Stampede3. Не так давно анонсировано строительство кластера Vista на ускорителях NVIDIA.

 Источник изображения: Техасский университет

Источник изображения: Техасский университет

Инициативу H2@Scale в Техасском университете начали реализовать в 2020 году. В задачи входит продвижение пилотных проектов, связанных с «возобновляемым» водородом в качестве экологически чистого и экономически эффективного источника топлива. В числе промышленных партнёров университета есть Air Liquide, CenterPoint Energy, Chart Industries, Chevron, ConocoPhillips, Hitachi Energy, Low-Carbon Resources Initiative, McDermott, Mitsubishi Heavy Industries America, OneH2, ONE Gas, ONEOK, Shell, SoCalGas, Texas Commission on Environmental Quality, Toyota и WM.

Государственно-частные проекты в рамках инициативы H2@Scale поддерживает Министерство энергетики США. Техасский университет отмечает, что штат имеет оптимальные условия для реализации водородных проектов, уже имея значительную водородную инфраструктуру, включая около 1500 км подходящих трубопроводов. Но эксперименты H2@Scale ведутся и в других местах. Так, в январе Caterpillar Electric Power и Microsoft объявили об успешном эксперименте, в ходе которого для питания дата-центра применялись исключительно водородные топливные ячейки в течение 48 часов.

Постоянный URL: http://servernews.ru/1104061
30.04.2024 [12:21], Владимир Мироненко

Правительство Франции решило выкупить часть активов Atos, чтобы сохранить контроль над критически важными технологиями

Французский IT-холдинг Atos сообщил о получении 27 апреля от правительства Франции письма о намерении (non-binding letter of intent, LOI) приобрести у неё 100 % активов в области передовых вычислений, критически важных систем и продуктов кибербезопасности подразделения по работе с большими данными и кибербезопасности BDS (Big Data & Security) по ориентировочной цене от €700 млн до €1 млрд. Оборот этой части бизнеса BDS составил в 2023 году около €1 млрд при общем обороте всего подразделения в размере €1,5 млрд.

Ранее испытывающая финансовые трудности Atos вела переговоры о продаже всего подразделения BDS с Airbus, но в итоге они ни к чему не привели, равно как и попытка продать подразделение ЦОД и хостинга Tech Foundations компании EP Equity Investment (EPEI) за ориентировочно €2 млрд. В результате Atos поддержала предложение правительства, которое намерено защитить суверенные стратегические активы Франции. Проведение юридической экспертизы потенциальной сделки государством начнётся в ближайшее время. Необязывающее предложение правительства о покупке должно быть оформлено к началу июня 2024 года.

 Источник изображений: Atos

Источник изображений: Atos

Письмо о намерениях предусматривает ограниченное эксклюзивное обязательство, распространяющееся на прямые предложения в рамках, указанных в письме о намерениях (прямо разрешающее обмен информацией и глобальные предложения в контексте плана финансовой реструктуризации) до 31 июля 2024 года и заключение глобального соглашения о реструктуризации.

Компания также представила пересмотренную программу реструктуризации на основе скорректированного бизнес-плана на 2024–2027 гг., где снижены ожидаемые показатели работы. В частности, в 2024 году компания планирует получить €9,8 млрд выручки, что на 3,3 % меньше по сравнению с 2023 годом, тогда как 9 апреля объявила о прогнозе выручки в размере €9,9 млрд (падение на 2,0 %). Операционная прибыль Atos должна за год составить €0,3 млрд или 2,9 % от выручки по сравнению с €0,4 млрд или 4,3 % от выручки, о которых сообщалось ранее.

Согласно скорректированному плану, в 2027 году выручка Atos должна составить €11,0 млрд по сравнению с €11,4 млрд, о которых сообщалось ранее. Ожидаемый среднегодовой темп роста выручки за период 2023–2027 гг. составит 2,3 %, хотя ранее ожидался прирост на уровне 3,1 %. Операционная прибыль компании в 2027 году должна составить €1,1 млрд или 9,9 % от выручки по сравнению с прежним прогнозом в размере €1,2 млрд или 10,3 % от выручки.

Скорректированный бизнес-план учитывает текущие тенденции бизнеса и более слабые рыночные условия в некоторых ключевых областях деятельности, а также отражает задержки в заключении новых контрактов и дополнительных работах, поскольку клиенты ожидают окончательного решения по финансовой реструктуризации компании. Также были учтены отсрочка с возвратом к органическому росту выручки до июля 2025 года, снижение рентабельности, более высокие накладные расходы, увеличение затрат на реструктуризацию в 2025 году и т.д.

Согласно пересмотренной концепции финансовой реструктуризации, для финансирования бизнеса в период 2024–2025 гг. необходимо €1,1 млрд денежных средств по сравнению с €600 млн согласно предыдущему плану. Средства должны быть предоставлены в виде займа и/или собственного капитала существующими заинтересованными сторонами или сторонними инвесторами. Как и прежде, компания считает, что ей потребуется €300 млн в виде новой возобновляемой кредитной линии и €300 млн в виде дополнительных банковских гарантийных линий. Сроки погашения оставшегося долга должны быть продлены на 5 лет.

Компания отметила, что письмо о намерениях, полученное от французского государства, не влияет на ключевые параметры реструктуризации. Если соглашение будет достигнуто, предполагается, что доходов от такой сделки не будет до II полугодия 2025 года. Соглашение о финансовой реструктуризации должно будет включать продление уже согласованного в общих чертах промежуточного финансирования в размере €450 млн и дополнительное промежуточное финансирование в размере €350 млн с июля 2024 года до окончательной реализации соглашения о финансовой реструктуризации.

Компания сообщила, что будет принимать предложения инвесторов по данным вопросам до 3 мая. Также с акционерами и финансовыми кредиторами будут проведены консультации в соответствии с требованиями французского законодательства. На конец 2023 года чистый долг компании составлял €2,23 млрд., а общая сумма выплат по кредитам достигла €4,8 млрд.

Комментируя действия правительства, министр экономики, финансов, промышленного и цифрового суверенитета Франции Брюно Лё Мэр (Bruno Le Maire) сообщил в интервью французскому телеканалу LCI (La Chaîne Info), что Atos осуществляет ряд видов деятельности, которые являются стратегическими для французской нации, для суверенитета страны и для обороны в областях кибербезопасности, HPC и атомной энергетики.

Эта суверенная деятельность должна оставаться под исключительным контролем Франции, отметил чиновник. «Мы берём на себя инициативу, потому что роль государства заключается в защите стратегических интересов Atos и предотвращении зависимости чувствительных, решающих технологий, таких как суперкомпьютеры или оборонные решения, от иностранных интересов в любое время», — подчеркнул Лё Мэр.

Постоянный URL: http://servernews.ru/1104032
26.04.2024 [11:47], Сергей Карасёв

Meta✴ увеличит инвестиции в развитие инфраструктуры ИИ и готовит крупнейшие капиталовложения в истории компании

Компания Meta, по сообщению ресурса Datacenter Dynamics, на фоне стремительного развития ИИ и больших языковых моделей (LLM) намерена увеличить инвестиции в дата-центры и серверное оборудование «на миллиарды долларов». Эти затраты, по заявлениям генерального директора Meta Марка Цукерберга, жизненно необходимы, чтобы стать «ведущей ИИ-компанией в мире».

По итогам I квартала текущего финансового года, который был завершён 31 марта, Meta получила выручку в размере $36,46 млрд. Это на 27 % больше результата годичной давности, когда была зафиксирована сумма в $28,65 млрд. Чистая прибыль при этом подскочила на 117 % — с $5,71 млрд до $12,37 млрд.

 Источник изображения: ***

Источник изображения: Meta

В финансовом отчёте говорится, что капитальные затраты по итогам квартала оказались на уровне $6,72 млрд, что несколько ниже по сравнению с прошлогодними $7,09 млрд. Тем не менее, Meta намерена нарастить общие капвложения: ожидается, что в 2024 году в целом они достигнут $35–$40 млрд, тогда как ещё в феврале называлась цифра в диапазоне $30–$37 млрд. Это будут крупнейшие капиталовложения в истории компании.

«Мы ожидаем, что капитальные затраты продолжат расти и в следующем году, поскольку мы активно инвестируем средства в исследования в области искусственного интеллекта», — отмечает финансовый директор Meta Сьюзен Ли (Susan Li). По словам Цукерберга, в ближайшие годы компания будет наращивать инвестиции в создание и внедрение передовых ИИ-моделей, а также запуск ведущих мировых сервисов на базе ИИ. При этом Meta намерена активно использовать собственные ИИ-ускорители Artemis в качестве альтернативы решениям NVIDIA и AMD.

Постоянный URL: http://servernews.ru/1103886
26.04.2024 [11:46], Сергей Карасёв

HPE построила самый мощный в Польше суперкомпьютер Helios производительностью 35 Пфлопс

Компания HPE сообщила о создании нового суперкомпьютера под названием Helios для Академического компьютерного центра Cyfronet Научно-технического университета AGH в Кракове (Польша). Вычислительный комплекс будет использоваться для решения ресурсоёмких задач, связанных с ИИ.

На сегодняшний день Helios — самая высокопроизводительная система в Польше. Она обеспечивает теоретическую пиковую производительность на уровне 35 Пфлопс, что более чем в четыре раза превосходит показатель предыдущего флагманского суперкомпьютера Cyfronet. Пиковое быстродействие на ИИ-операциях достигает 1,8 Эфлопс.

В основу Helios положены узлы HPE Cray EX. Комплекс состоит из трёх сегментов. Один из них предназначен для традиционных вычислений, еще один — для рабочих нагрузок, связанных с обработкой больших данных. Третий сегмент оптимизирован для ИИ-задач: он использует суперчипы NVIDIA. Суперкомпьютер планируется применять при реализации проектов в области химии, медицины, создания передовых материалов, астрономии и защиты окружающей среды.

Раздел общего назначения использует процессоры AMD EPYC поколения Genoa. Общее количество вычислительных ядер Zen 4 составляет 75 264, объём оперативной памяти DDR5 — 200 Тбайт. Сегмент для работы с большими данными основан на платформе HPE Cray Supercomputing XD665 с чипами EPYC Genoa, памятью DDR5-4800, быстрыми накопителями NVMe и ускорителями NVIDIA H100, суммарное количество которых равно 24.

 Источник изображения: HPE

Источник изображения: HPE

Наконец, ИИ-раздел объединяет 440 суперчипов NVIDIA GH200 Grace Hopper для компьютерного моделирования с интенсивным использованием графики, поддержки приложений на основе генеративного ИИ и пр. Все компоненты вычислительного комплекса связаны друг с другом посредством 200G-интерконнекта HPE Slingshot. Комплекс Helios оснащён Lustre-хранилищем общей вместимостью 17,5 Пбайт на базе HPE Cray ClusterStor E1000.

Постоянный URL: http://servernews.ru/1103881
28.03.2024 [21:03], Руслан Авдеев

Nautilus запустила линейку инфраструктурных решений EcoCore для модульных ЦОД

Nautilus Data Technologies запустила новую серию решений для модульных дата-центров на основе разработанных ранее технологий охлаждения. По данным Datacenter Dynamics, новый проект предлагает варианты для ЦОД ёмкостью до 2,5 МВт. По словам Nautilus, EcoCore расширяет эффективность сборных конструкций и упрощает процесс строительства, позволяя интегрировать рабочее пространство с техническими помещениями и размещать MEP-компоненты (электрику, водоснабжение и вентиляцию) на крыше.

Конструкция использует четыре CDU-установки для кондиционирования, каждая из которых способна отводить до 833 кВт тепла. Система поддерживает как традиционные варианты охлаждения, так и современные жидкостные. Основной модуль электропитания (PEU) обеспечивает мощность 1250 кВт (415 В, три фазы), но есть и точно такой же резервный (N+1).

Новинка будет развёрнута в Start Campus в Синише (Португалия) — впервые за пределами собственных мощностей Nautilus. EcoCore, по словам компании, соответствует запросам Start по организации бесперебойной работы серверов высокой плотности с СЖО. Компании договорились о сотрудничестве в прошлом году и заключили «многомегаваттное» соглашение. Первый модуль EcoCore будет развёрнут в ходе первой фазы строительства кампуса Start. В Nautilus и Start заявляют, что экобезопасные технологии первой задают новый стандарт в индустрии, обеспечивая непревзойдённые эффективность и адаптивность.

 Источник изображения: Nautilus

Источник изображения: Nautilus

Nautilus известна прежде всего проектами плавучих ЦОД и системой охлаждения дата-центров речной или морской водой. Пока компания выступает лишь оператором ЦОД-баржи в Стоктоне (Калифорния), но планирует построить и наземный объект в Мэне. Также в работе находятся и другие проекты в США, Франции и Ирландии. Меморандумы о взаимопонимании заключены в Таиланде и на Филиппинах. Впрочем, появление EcoCore, похоже, указывает на желание стать поставщиком решений для других операторов.

Принадлежащая инвестиционному фонду Davidson Kempner и британской British Pioneer Point Partners компания Start намерена построить 495-МВт кампус площадью 60 га в Португалии. Компании заявили, что Nautilus поставит охладительные системы и для второй фазы проекта, предусматривающего расширение на 120 МВт. Ранее Start оказалась вовлечена в коррупционный скандал.

Постоянный URL: http://servernews.ru/1102425
22.03.2024 [21:10], Сергей Карасёв

Консорциум Ultra Ethernet пополнился 45 участниками, но NVIDIA среди них так и нет

Консорциум Ultra Ethernet объявил о том, что в его состав вошли 45 новых участников. Таким образом, на сегодняшний день общее количество членов этой организации достигает 55. К участию в Ultra Ethernet приглашаются и другие заинтересованные компании и институты.

Напомним, консорциум был создан в июле 2023 года. Его задача заключается в разработке основанной на Ethernet открытой высокопроизводительной архитектуры с полным коммуникационным стеком, отвечающей задачам современных рабочих нагрузок ИИ и НРС. Изначально в состав Ultra Ethernet входили AMD, Arista, Broadcom, Cisco, Eviden (Atos), HPE, Intel, Meta и Microsoft. Позднее к консорциуму присоединилась компания Cornelis Networks, поставщик HPC-интерконнекта на базе Omni-Path.

 Источник изображения: Ultra Ethernet

Источник изображения: Ultra Ethernet

С ноября 2023-го организация начала принимать новых участников в массовом порядке. С тех пор инициативу поддержали Nokia, Lenovo, Baidu, Dell, Huawei, IBM, Supermicro, Tencent и многие другие компании. Примечательно, что в списке участников так и нет AWS, Google и NVIDIA. Последняя по-прежнему считает InfinBand лучшим интерконнектом для HPC/ИИ-кластеров и является фактически единственным поставщиком данной технологии. Более того, даже Ethernet-решения NVIDIA подвергаются критике со стороны конкурентов.

 Источник изображения: Ultra Ethernet

Источник изображения: Ultra Ethernet

Для тех, кто заинтересован в работах в рамках проекта, Ultra Ethernet предлагает различные варианты участия через восемь технических групп. В их число, в частности, входят физический, транспортный и программный уровни, хранение, управление, отладка и пр. В настоящее время ведётся активная работа над спецификацией Ultra Ethernet версии 1.0: представить её планируется в III квартале текущего года. Ожидается, что совместная работа десятков IT-компаний в перспективе позволит создать революционные коммуникационные платформы.

Постоянный URL: http://servernews.ru/1102143
19.03.2024 [01:00], Игорь Осколков

NVIDIA B200, GB200 и GB200 NVL72 — новые ускорители на базе архитектуры Blackwell

NVIDIA представила сразу несколько ускорителей на базе новой архитектуры Blackwell, названной в честь американского статистика и математика Дэвида Блэквелла. На смену H100/H200, GH200 и GH200 NVL32 на базе архитектуры Hopper придут B200, GB200 и GB200 NVL72. Все они, как говорит NVIDIA, призваны демократизировать работу с большими языковыми моделями (LLM) с триллионами параметров. В частности, решения на базе Blackwell будут до 25 раз энергоэффективнее и экономичнее в сравнении с Hopper.

В разреженных FP4- и FP8-вычислениях производительность B200 достигает 20 и 10 Пфлопс соответственно. Но без толики технического маркетинга не обошлось — показанные результаты достигнуты не только благодаря аппаратным улучшениям, но и программным оптимизациям. Это ни в коей мере не умаляет их важности и полезности, но затрудняет прямое сравнение с конкурирующими решениями. В общем, появление Blackwell стоит рассматривать не как очередное поколение ускорителей, а как расширение всей экосистемы NVIDIA.

В Blackwell компания использует тайловую (чиплетную) компоновку — два тайла объединены 2,5D-упаковкой CoWoS-L и на двоих имеют 208 млрд транзисторов, изготовленных по техпроцессу TSMC 4NP. В одно целое со всех точек зрения их объединяет новый интерконнект NV-HBI с пропускной способностью 10 Тбайт/с, а дополняют их восемь стеков HBM3e-памяти ёмкостью до 192 Гбайт с агрегированной пропускной способностью до 8 Тбайт/с. Такой же объём памяти предлагает и Instinct MI300X, но с меньшей ПСП (5,3 Тбайт/с), хотя это скоро изменится. FP8-производительность в разреженных вычислениях у решения AMD составляет 5,23 Пфлопс, но зато компания не забывает и про FP64 в отличие от NVIDIA.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

Одними из ключевых нововведений, отвечающих за повышение производительности, стали новые Tensor-ядра и второе поколение механизма Transformer Engine, который научился заглядывать внутрь тензоров, ещё более тонко подбирая необходимую точность вычислений, что влияет и на скорость обучения с инференсом, и на максимальный объём модели, умещающейся в памяти ускорителя.

Теперь NVIDIA намекает на то, что обучение можно делать в FP8-формате, а для инференса хватит и FP4. Всё это без потери качества. Но вообще Blackwell поддерживает FP4/FP6/FP8, INT8, BF16/FP16, TF32 и FP64. И только для последнего нет поддержки разреженных вычислений.

Дополнительно Blackwell обзавёлся движком для декомпрессии (в первую очередь LZ4, Deflate, Snappy) входящих данных со скоростью до 800 Гбайт/с, что тоже должно повысить производительность, т.к. теперь распаковкой будет заниматься не CPU и, соответственно, ускоритель не будет «голодать». Эта функция рассчитана в основном на Apache Spark и другие системы для аналитики больших данных. Также есть по семь движков NVDEC и NVJPEG.

Наконец, NVIDIA упоминает ещё две новых возможности Blackwell: шифрование данных в памяти и RAS-функции. В первом случае речь идёт о защите конфиденциальности обрабатываемых данных, что важно в целом ряде областей. Причём формирование TEE-анклава возможно в рамках группы из 128 ускорителей. MIG-доменов по-прежнему семь. В случае RAS говорится о телеметрии и предиктивной аналитике (естественно, на базе ИИ), которые помогут заранее выявить возможные сбои и снизить время простоя. Это важно, поскольку многие модели могут обучаться неделями и месяцами, так что потеря даже относительно небольшого куска данных крайне неприятна и финансово затратна.

Однако всё эти инновации не имеют смысла без возможности масштабирования, поэтому NVIDIA оснастила Blackwell не только интерфейсом PCIe 6.0 (32 линии), который играет всё меньшую роль, но и пятым поколением интерконнекта NVLink. NVLink 5 по сравнению с NVLink 4 удвоил пропускную способность до 1,8 Тбайт/с (по 900 Гбайт/с в каждую сторону), а соответствующий коммутатор NVSwitch 7.2T позволяет объединить до 576 ускорителей в одном домене. SHARP-движки с поддержкой FP8 дополнительно помогут ускорить обработку моделей, избавив ускорители от части работ по предобработке и трансформации данных. Чип коммутатора тоже изготавливается по техпроцессу TSMC N4P и содержит 50 млрд транзисторов.

Для дальнейшего масштабирования и формирования кластеров из 10 тыс. ускорителей и более, вплоть до 100 тыс. ускорителей на уровне ЦОД, NVIDIA предлагает 800G-коммутаторы Quantum-X800 InfiniBand XDR и Spectrum-X800 Ethernet, имеющие соответственно 144 и 64 порта. Узлам же полагаются DPU ConnectX-8 SuperNIC и BlueField-3. Правда, последний предлагает только 400G-порты в отличие от первого. От InfiniBand компания отказываться не собирается.

С базовыми кирпичиками разобрались, пора переходить к конструированию продуктов. Первым идёт HGX B100, в основе которой всё та же базовая плата с восемью ускорителями Blackwell, точно так же провязанных между собой NVLink 5 с агрегированной скоростью 14,4 Тбайт/с. Для связи с внешним миром предлагается пара интерфейсов PCIe 6.0 x16. HGX B100 предназначена для простой замены HGX H100, поэтому ускорители имеют TDP не более 700 Вт, что ограничивает пиковую производительность в разреженных FP4- и FP8/FP6/INT8-вычислениях до 14 и 7 Пфлопс соответственно, а для всей системы — 112 и 56 Пфлопс соответственно.

У HGX B200 показатель TDP ограничен уже 1 кВт, причём возможность воздушного охлаждения по-прежнему сохраняется. Производительность одного B200 в разреженных FP4- и FP8/FP6/INT8-вычислениях достигает уже 18 и 9 Пфлопс, а для всей системы — 144 и 72 Пфлопс соответственно. DGX B200 повторяет HGX B200 в плане производительности и является готовой системой от NVIDIA, тоже с воздушным охлаждением. В системе используются два чипа Intel Xeon Emerald Rapids. По словам NVIDIA, DGX B200 до 15 раз быстрее в задачах инференса «триллионных» моделей по сравнению с DGX-узлами прошлого поколения. 800G-интерконнект Ethernet/InfiniBand этим трём платформам не достался, только 400G.

Основным же строительным блоком сама компания явно считает гибридный суперчип GB200, объединяющий уже имеющийся у неё Arm-процессор Grace сразу с двумя ускорителями Blackwell B200. CPU-часть включает 72 ядра Neoverse V2 (по 64 Кбайт L1-кеша для данных и инструкций, L2-кеш 1 Мбайт), 144 Мбайт L3-кеша и до 480 Гбайт LPDDR5x-памяти с ПСП до 512 Гбайт/с. С двумя B200 процессор связан 900-Гбайт/с шиной NVLink-C2C — по 450 Гбайт/с на каждый ускоритель. Между собой B200 напрямую подключены уже по полноценной 1,8-Тбайт/с шине NVLink 5.

Вся эта немаленькая конструкция шириной в половину стойки имеет TDP до 2,7 кВт. 1U-узел с парой чипов GB200, каждый из которых может отъедать до 1,2 кВт, уже требует жидкостное охлаждение. FP4- и FP8/FP6/INT8-производительность (речь всё ещё о разреженных вычислениях) GB200 достигает 40 и 20 Пфлопс. И именно эти цифры NVIDIA нередко использует для сравнения новинок со старыми решениями.

18 узлов с парой GB200 (суммарно 72 шт.) и 9 узлов с парой коммутаторов NVSwitch 7.2T, которые провязывают все ускорители по схеме каждый-с-каждым (агрегированно 130 Тбайт/с, более 3 км соединений), формируют 120-кВт суперускоритель GB200 NVL72 размером со стойку (Oberon), оснащённый СЖО и единой DC-шиной питания. Всё это даёт до 1,44 Эфлопс в FP4-вычислениях и до 720 Пфлопс в FP8, а также до 13,5 Тбайт HBM3e с агрегированной ПСП до 576 Тбайт/с. Ну а общий объём памяти составляет порядка 30 Тбайт. GB200 NVL72 одновременно является и узлом DGX GB200. Восемь DGX GB200 формируют DGX SuperPOD. Впрочем, будет доступен и SuperPOD попроще, на базе DGX B200.

Ускорители B200 появятся в этом году и будут стоить в диапазоне $30–$40 тыс., что ненамного больше начальной цены Hopper в диапазоне $25–$40 тыс. Глава NVIDIA уже предупредил, что Blackwell сразу будут в дефиците. Вероятно, получить доступ к ним проще всего будет в облаках Amazon, Google, Microsoft и Oracle.

Постоянный URL: http://servernews.ru/1101912
17.01.2024 [08:08], Владимир Мироненко

300 кВт на стойку: Aligned представила СЖО DeltaFlow~ для своих дата-центров

Компания Aligned представила новую систему жидкостного охлаждения DeltaFlow~, которая позволяет увеличить плотность размщения вычислительных мощностей 300 кВт на стойку, сообщил ресур Datacenter Dynamics.

DeltaFlow~ — это готовое решение, поддерживающее текущие и будущие технологии жидкостного охлаждения, включая прямое охлаждение direct-to-chip с CDU, охлаждение с использованием теплообменника на задней дверце (Rear-door Heat Exchanger, RDHx) и иммерсионное охлаждение. Решение опирается на систему с замкнутым контуром без использования наружного воздуха или воды. По словам Alidned, новая СЖО позволяет клиентам по-максимуму использовать современные чипы и ускорителя, сокращая время выхода на рынок, затраты и риски.

 Фото: Aligned

Фото: Aligned

DeltaFlow~ также интегрируется с технологией воздушного охлаждения Delta3 (Delta Cube) без изменений в подаче электроэнергии или существующей температуры в машинных залах. Delta3 вместо традиционного холодного коридора использует вентиляторы и теплообменники, расположенные непосредственно за стойками и подключённые к водяному контуру, уходящему к чиллерам. Delta3 позволяет добиться плотности до 50 кВт на стойку.

Aligned стала одной из последних компаний, анонсировавшей платформу для оборудования высокой плотности, основанное на жидкостном охлаждении. Ранее в этом месяце Stack представила решение с использованием погружного охлаждения, которое позволяет поддерживать мощность 300 кВт или выше на стойку. Летом прошлого года CyrusOne анонсировала новую архитектуру ЦОД для ИИ-нагрузок, где тоже используется погружное охлаждение и тоже можно получить 300 кВт на стойку.

Тогда же Digital Realty запустила услугу колокации с поддержкой размещений до 70 кВт на стойку, а в декабре Equinix объявила о планах по расширению поддержки передовых технологий СЖО в значительной части своих ЦОД, хотя и не указала предельную плотность. DataBank также переработала конструкцию машинных залов для поддержки размещений высокой плотностью с использованием жидкостного охлаждения.

Постоянный URL: http://servernews.ru/1098847
13.11.2023 [17:00], Игорь Осколков

NVIDIA анонсировала ускорители H200 и «фантастическую четвёрку» Quad GH200

NVIDIA анонсировала ускорители H200 на базе всё той же архитектуры Hopper, что и их предшественники H100, представленные более полутора лет назад. Новый H200, по словам компании, первый в мире ускоритель, использующий память HBM3e. Вытеснит ли он H100 или останется промежуточным звеном эволюции решений NVIDIA, покажет время — H200 станет доступен во II квартале следующего года, но также в 2024-м должно появиться новое поколение ускорителей B100, которые будут производительнее H100 и H200.

 HGX H200 (Источник здесь и далее: NVIDIA)

HGX H200 (Источник здесь и далее: NVIDIA)

H200 получил 141 Гбайт памяти HBM3e с суммарной пропускной способностью 4,8 Тбайт/с. У H100 было 80 Гбайт HBM3, а ПСП составляла 3,35 Тбайт/с. Гибридные ускорители GH200, в состав которых входит H200, получат до 480 Гбайт LPDDR5x (512 Гбайт/с) и 144 Гбайт HBM3e (4,9 Тбайт/с). Впрочем, с GH200 есть некоторая неразбериха, поскольку в одном месте NVIDIA говорит о 141 Гбайт, а в другом — о 144 Гбайт HBM3e. Обновлённая версия GH200 станет массово доступна после выхода H200, а пока что NVIDIA будет поставлять оригинальный 96-Гбайт вариант с HBM3. Напомним, что грядущие конкурирующие AMD Instinct MI300X получат 192 Гбайт памяти HBM3 с ПСП 5,2 Тбайт/с.

На момент написания материала NVIDIA не раскрыла полные характеристики H200, но судя по всему, вычислительная часть H200 осталась такой же или почти такой же, как у H100. NVIDIA приводит FP8-производительность HGX-платформы с восемью ускорителями (есть и вариант с четырьмя), которая составляет 32 Пфлопс. То есть на каждый H200 приходится 4 Пфлопс, ровно столько же выдавал и H100. Тем не менее, польза от более быстрой и ёмкой памяти есть — в задачах инференса можно получить прирост в 1,6–1,9 раза.

При этом платы HGX H200 полностью совместимы с уже имеющимися на рынке платформами HGX H100 как механически, так и с точки зрения питания и теплоотвода. Это позволит очень быстро обновить предложения партнёрам компании: ASRock Rack, ASUS, Dell, Eviden, GIGABYTE, HPE, Lenovo, QCT, Supermicro, Wistron и Wiwynn. H200 также станут доступны в облаках. Первыми их получат AWS, Google Cloud Platform, Oracle Cloud, CoreWeave, Lambda и Vultr. Примечательно, что в списке нет Microsoft Azure, которая, похоже, уже страдает от недостатка H100.

GH200 уже доступны избранным в облаках Lamba Labs и Vultr, а в начале 2024 года они появятся у CoreWeave. До конца этого года поставки серверов с GH200 начнут ASRock Rack, ASUS, GIGABYTE и Ingrasys. В скором времени эти чипы также появятся в сервисе NVIDIA Launchpad, а вот про доступность там H200 компания пока ничего не говорит.

Одновременно NVIDIA представила и базовый «строительный блок» для суперкомпьютеров ближайшего будущего — плату Quad GH200 с четырьмя чипами GH200, где все ускорители связаны друг с другом посредством NVLink по схеме каждый-с-каждым. Суммарно плата несёт более 2 Тбайт памяти, 288 Arm-ядер и имеет FP8-производительность 16 Пфлопс. На базе Quad GH200 созданы узлы HPE Cray EX254n и Eviden Bull Sequana XH3000. До конца 2024 года суммарная ИИ-производительность систем с GH200, по оценкам NVIDIA, достигнет 200 Эфлопс.

Постоянный URL: http://servernews.ru/1095861

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;