Материалы по тегу: суперкомпьютер
|
19.12.2023 [14:40], Руслан Авдеев
Пентагон получил 9-Пфлопс суперкомпьютер Carpenter: 280 тыс. ядер AMD и 563 Тбайт RAMАмериканское военное ведомство ввело в эксплуатацию новый суперкомпьютер. По данным Datacenter Dynamics, Центр исследований и разработок армии США (ERDC) представил систему Carpenter производительностью 9 Пфлопс, названную в честь капрала Уильяма Кайла Карпентера (William Cyle Carpenter). Впервые ERDC поделился планами строительства нового суперкомпьютера в августе прошлого года, изначально ожидалось, что машина получит по два чипа на узел, каждый со 192 ядрами и 384 Гбайт памяти, и 200G-интерконнект. Суперкомпьютер построен в лаборатории Army Computing Lab в Виксбурге (Миссисипи). Система, базирующаяся на платформе HPE Cray EX4000, оснащена 277 248 вычислительными ядрами AMD EPYC и 563 Тбайт памяти. О наличии каких-либо ускорителей не сообщается. Первый суперкомпьютер ERDC получил в 1990 году, а в 1992 году центр начал реализацию проекта High Performance Computing Modernization Program (HPCMP). В частности, она позволяет учёным Пентагона получать доступ к мощностям для разработки, тестирования и оценки оборонных систем. В ведении ERDC также находятся суперкомпьютеры Freeman и Onyx. Последний должны были «отправить на покой» ещё в августе этого года, но он всё ещё числится в ноябрьском списке TOP500, равно как и система Topaz 2015 года.
18.12.2023 [19:20], Сергей Карасёв
В Австралии появится нейроморфный ИИ-суперкомпьютер DeepSouth для имитации человеческого мозгаУниверситет Западного Сиднея (Австралия) анонсировал проект суперкомпьютера нового типа под названием DeepSouth. Речь идёт о создании нейроморфной машины, способной с высочайшей производительностью имитировать процессы, протекающие в человеческом мозге. Предполагается, что система выведет на новый уровень решение задач в области ИИ и машинного обучения. Исследователи отмечают, что наш мозг способен обрабатывать эквивалент экзафлопа математических операций в секунду, затрачивая при этом всего около 20 Вт. Вместе с тем традиционные суперкомпьютеры при решении ресурсоёмких ИИ-задач используют компоненты, например, ускорители на базе GPU, которые требуют огромного объёма энергии. Как отмечает Datacenter Dynamics, ссылаясь на заявления профессора Андре ван Шайка (André van Schaik), директора Международного центра нейроморфных систем в Университете Западного Сиднея, DeepSouth сможет обеспечить соотношение производительности, энергоэффективности и занимаемой площади, которое невозможно достичь при использовании стандартных CPU и GPU. Ожидается, что нейроморфный суперкомпьютер сможет выполнять около 228 трлн «синаптических операций» в секунду, что по масштабу сравнимо с человеческим мозгом. В подробности об аппаратном обеспечении системы разработчики пока не вдаются. Говорится лишь, что задействовано коммерчески доступное конфигурируемое оборудование. Ресурсы DeepSouth будут предоставляться дистанционно через специализированный интерфейс, позволяющий описывать нейронные модели и проектировать нейронные сети на Python. Говорится также, что для DeepSouth предусмотрено использование масштабируемой архитектуры: это позволит адаптировать конфигурацию под те или иные проекты, обеспечивая оптимальную производительность при минимальных энергозатратах. Ввод суперкомпьютера в эксплуатацию запланирован к апрелю 2024 года.
12.12.2023 [17:18], Руслан Авдеев
Малайзиская YTLP вложит $4,3 млрд в создание ЦОД и ИИ-суперкомпьютеров на базе ускорителей NVIDIANVIDIA и YTL Power (YTLP), энергетическое подразделение малайзийского конгломерата YTL, занялись проектом, предполагающим вложения в объёме $4,3 млрд в строительство ИИ-облака и суперкомпьютеров в стране. Как сообщает Datacenter Dynamics, первая очередь проекта должна быть введена в эксплуатацию в середине 2024 года. Глава NVIDIA Дженсен Хуанг (Jensen Huang) ещё до объявления о сотрудничестве заявил, что Малайзия является важным хабом для вычислительной инфраструктуры в Юго-Восточной Азии, а YTL может стать на этот рынке крупным игроком. Власти страны уже заявили, что решение команий является недвусмысленным сигналом для других инвесторов, в первую очередь среди техногигантов. Малайзия неоднократно заявляла, что хочет стать новым IT-хабом Юго-Восточной Азии.
Источник изображения: Sadie Teper/unsplash.com Проект реализуют в принадлежащем YTL технопарке, расположенном в Кулае (Джохор). Здесь компании намерены построить ЦОД и самый быстрый в Малайзии суперкомпьютер на базе ИИ-ускорителей NVIDIA. YTL задействует облачную ИИ-платформу NVIDIA для создания собственной большой языковой модели. Создание технопарка YTL анонсировали в августе 2022 года. Изначально говорилось о кампусе мощностью 500 МВт. Сингапурская IT-компания Sea должна стала «якорным» арендатором, свой ЦОД там строит и GDS. Предполагается, что значительные поставки ускорителей NVIDIA в Сингапур в III квартале связаны с проектами, которые фактически будут реализовываться в соседних странах, а не на территории самого города-государства, где есть проблемы с энергией и землёй. Подушевые траты на чипы NVIDIA в стране достигают фантастических $600, тогда как в США этот показатель составляет $60, а в Китае — $3.
06.12.2023 [20:09], Руслан Авдеев
Министерство энергетики США выявило плохое обслуживание экзафлопсного суперкомпьютера FrontierУправление генерального инспектора (OIG) Министерства энергетики США провело проверку ЦОД Национальной лаборатории Ок-Ридж, на базе которой работают передовые суперкомпьютеры, в том числе — первая в мире экзафлопсная система Frontier. Как сообщает The Register, результаты оставляют желать лучшего. В сентябре прошлого года в OIG поступило заявление о необходимости проверки качества обслуживания и калибровки оборудования (в первую очередь речь температурных датчиках и автоматике систем охлаждения) на площадке лаборатории, расположенной в Теннеси. Лаборатория занимается проектами в области атомной энергетики и обеспечения национальной безопасности. Доклад по результатам проверки связан с ЦОД на площадке Ок-Ридж. В одном из кампусов находится центр Oak Ridge Leadership Computing Facility (OLCF), управляющий суперкомпьютером Frontier. Инспекция проводилась с января по сентябрь 2023 года и подтвердила данные поступившего регулятору заявления. Согласно докладу OIG, в заявлении сообщалось, что программа калибровки не соответствовала нормам, а предохранительные клапаны (PRV) в ЦОД или совсем не обслуживались, или обслуживались недобросовестно. Сбой работы клапанов мог привести к повышению давления выше допустимых пределов, что потенциально могло нанести вред как оборудованию, так и персоналу. Как сообщают в OIG, поскольку инфраструктура не обслуживалась должным образом, этом могло ограничить доступность вычислительных ресурсов и поставить под угрозу выполнение целей миссии лаборатории. Управление вычислительными мощностями лаборатории выполняет некоммерческая организация UT-Battelle, созданная в 2000 году исключительно для контроля над площадкой Ок-Ридж в интересах Министерства энергетики при сотрудничестве с Университетом Теннесси и некоммерческим Мемориальным институтом Баттеля. В OIG заявляют, что программа обслуживания UT-Battelle не соответствовала необходимым требованиям. В самой UT-Battelle сообщили регулятору, что регулярная калибровка не нужна, поскольку каждый элемент оборудования калибруется при установке, а позже системы ЦОД постоянно контролируются субподрядчиком с помощью ПО, уведомляющего об инцидентах. В OIG подчёркивают, что хотя такая практика разрешена, всё ПО должно контролироваться с помощью специальной программы обеспечения качества, описывающей, каким именно образом соблюдаются требования к безопасности. Однако лаборатория не смогла предоставить таких документов — в UT-Battelle фактически не знают, предоставляет ли ПО корректные данные. Кроме того, UT-Battelle не проверяла вовремя все воздушные клапаны, а почти половина клапанов для воды и теплоносителя не была протестирована и/или обследована в соответствиями с инструкциями. В некоторых случаях тесты проводили в соответствии с рекомендациями производителя, а не принятыми в лаборатории правилами. UT-Battelle заявляет, что процедура проверки сейчас пересматривается. В отчёте OIG подчёркивается, что в 2020 году уже проводилась аналогичная проверка, выявившая буквально те же проблемы. Хотя в некоторых аспектах положение улучшилось, требуются дальнейшие меры для приведения дел в порядок. При этом в UT-Battelle полностью признали правомерность рекомендаций и согласились разработать план обеспечения качества для мониторингового ПО и обеспечить работу и обслуживание PRV-клапанов в соответствии с актуальными процедурами и требованиями.
06.12.2023 [20:05], Сергей Карасёв
РСК создала для Института математики СО РАН суперкомпьютер с быстродействием 54,4 ТфлопсВ Институте математики имени С.Л. Соболева Сибирского отделения Российской академии наук (ИМ СО РАН) в Новосибирске появился новый суперкомпьютер, который планируется применять для разработки перспективных технологий, анализа данных, выполнения научных исследований и пр. Установку и тестирование системы выполнили специалисты группы компаний РСК. Отмечается, что монтажные и пуско-наладочные работы осуществлены в сжатые сроки — за 3,5 недели. На создание комплекса предоставлен грант в рамках федеральной инициативы «Развитие инфраструктуры для научных исследований и подготовки кадров» Национального проекта «Наука и университеты». В основу суперкомпьютера положена платформа «РСК Торнадо» с жидкостным охлаждением. Задействованы вычислительные узлы, оснащённые двумя процессорами Intel Xeon Ice Lake-SP (38 ядер; базовая частота 2,4 ГГц). Производительность кластера в текущей конфигурации составляет 54,4 Тфлопс. Система, как заявляет РСК, позволит сотрудникам института решать сложные исследовательские задачи в области математики, физики, биологии и пр. В дальнейшем запланированы несколько этапов модернизации комплекса. Так, в ближайшей перспективе будут установлены более 12 вычислительных узлов и узел с GPU-ускорителями. В результате, в 2024 году производительность поднимется на 89 Тфлопс, превысив 140 Тфлопс. Суммарная потребляемая мощность машины составит примерно 41 кВт. До 2025 года планируется повышение быстродействия суперкомпьютера до 234,4 Тфлопс. «У нас появилась возможность решать задачи невероятной сложности, моделировать объёмные процессы и предсказывать поведение сложных математических систем. Ресурсы этого вычислительного комплекса будут использоваться для разработки новых технологий, анализа данных и в образовательных целях, например, мы сможем обучать студентов и молодых учёных современным методам проведения исследований и работы с данными», — отметил и.о. директора ИМ СО РАН Андрей Миронов.
01.12.2023 [11:50], Сергей Карасёв
В основу ИИ-суперкомпьютера NCSA DeltaAI лягут суперчипы NVIDIA GH200 Grace HopperНациональный центр суперкомпьютерных приложений (NCSA) при Университете Иллинойса в Урбане-Шампейне (США) сообщил о том, что в 2024 году в эксплуатацию будет введён вычислительный комплекс DeltaAI. Его основой послужат суперчипы NVIDIA GH200 Grace Hopper. Система DeltaAI создаётся с прицелом на ресурсоёмкие приложения ИИ. В рамках проекта NCSA в июле нынешнего года получил $10 млн от Национального научного фонда США (NSF). Инициатива DeltaAI направлена на расширение использования возможностей ИИ при реализации различных исследовательских задач. Комплекс DeltaAI станет дополнением к суперкомпьютеру Delta, который заработал в NCSA в 2022 году. Данная система занимает 199-е место в ноябрьском рейтинге TOP500 с быстродействием около 3,81 Пфлопс. Теоретическая пиковая производительность достигает 8,05 Пфлопс. В основу положены процессоры AMD EPYC 7763 Milan и интерконнект Slingshot-10. Отмечается, что DeltaAI утроит вычислительные мощности NCSA, ориентированные на задачи ИИ, и значительно расширит ресурсы, доступные в НРС-экосистеме, финансируемой NSF. Благодаря использованию передовых интерфейсов система DeltaAI будет более доступна для различных исследовательских ИИ-проектов. Производительность DeltaAI пока не раскрывается. Нужно отметить, что суперчип GH200 Grace Hopper ляжет в основу более чем 40 ИИ-суперкомпьютеров по всему миру. Это, в частности, первый европейский суперкомпьютер экзафлопсного класса Jupiter, британский комплекс Isambard-AI в Бристольском университете и пр.
28.11.2023 [22:20], Игорь Осколков
NVIDIA анонсировала суперускоритель GH200 NVL32 и очередной самый мощный в мире ИИ-суперкомпьютер Project CeibaAWS и NVIDIA анонсировали сразу несколько новых совместно разработанных решений для генеративного ИИ. Основным анонсом формально является появление ИИ-облака DGX Cloud в инфраструктуре AWS, вот только облако это отличается от немногочисленных представленных ранее платформ DGX Cloud тем, что оно первом получило гибридные суперчипах GH200 (Grace Hoppper), причём в необычной конфигурации.
Изображения: NVIDIA В основе AWS DGX Cloud лежит платформа GH200 NVL32, но это уже не какой-нибудь сдвоенный акселератор вроде H100 NVL, а целая, готовая к развёртыванию стойка, включающая сразу 32 ускорителя GH200, провязанных 900-Гбайт/с интерконнектом NVLink. В состав такого суперускорителя входят 9 коммутаторов NVSwitch и 16 двухчиповых узлов с жидкостным охлаждением. По словам NVIDIA, GH200 NVL32 идеально подходит как для обучения, так и для инференса действительно больших LLM с 1 трлн параметров. Простым перемножением количества GH200 на характеристики каждого ускорителя получаются впечатляющие показатели: 128 Пфлопс (FP8), 20 Тбайт оперативной памяти, из которых 4,5 Тбайт приходится на HBM3e с суммарной ПСП 157 Тбайтс, и агрегированная скорость NVLink 57,6 Тбайт/с. И всё это с составе одного EC2-инстанса! Да, новая платформа использует фирменные DPU AWS Nitro и EFA-подключение (400 Гбит/с на каждый GH200). Новые инстансы, пока что безымянные, можно объединять в кластеры EC2 UltraClasters. Одним из таких кластеров станет Project Ceiba, очередной самый мощный в мире ИИ-суперкомпьютер с FP8-производительность 65 Эфлопс, объединяющий сразу 16 384 ускорителя GH200 и имеющий 9,1 Пбайт памяти, а также агрегированную пропускную способность интерконнекта на уровне 410 Тбайт/с (28,8 Тбайт/с NVLink). Он и станет частью облака AWS DGX Cloud, которое будет доступно в начале 2024 года. В скором времени появятся и EC2-инстансы попроще: P5e с NVIDIA H200, G6e с L40S и G6 с L4.
25.10.2023 [11:49], Сергей Карасёв
Экзафлопсный суперкомпьютер Frontier назван лучшим изобретением 2023 года по версии TimeЕжегодно американский журнал Time публикует список из лучших изобретений человечества в самых разных сферах. В нынешнем году в рейтинг вошли 200 продуктов и технологий, которые сгруппированы более чем в 35 категорий. Это, в частности, ПО, связь, виртуальная и дополненная реальность, ИИ, потребительская электроника, чистая энергии, здравоохранение, безопасность, робототехника и многое другое. Одним из направлений являются экспериментальные системы и устройства. В данной категории победителем назван вычислительный комплекс Frontier — самый мощный суперкомпьютер 2023 года. Исследователи уже используют его для самых разных целей: от изучения чёрных дыр до моделирования климата. «Специалисты сравнивают это с эквивалентом высадки на Луну с точки зрения инженерных достижений. Это больше, чем чудо. Это статистическая невозможность», — сказал Ник Дюбе (Nic Dubé), руководитель проекта в HPE. Система Frontier, созданная специалистами HPE, установлена в Национальной лаборатории Окриджа (ORNL) Министерства энергетики США. Она занимает первое место в рейтинге TOP500 с производительностью 1,194 Эфлопс. В составе системы применяются процессоры AMD EPYC Milan, ускорители Instinct MI250X и интерконнект Cray Slingshot. В общей сложности задействованы 8 699 904 вычислительных ядра. Теоретическое пиковое быстродействие достигает 1,680 Эфлопс.
21.07.2023 [15:35], Сергей Карасёв
NVIDIA, подвинься: Cerebras представила 4-Эфлопс ИИ-суперкомпьютер Condor Galaxy 1 и намерена построить ещё восемь таких жеКомпания Cerebras Systems анонсировала суперкомпьютер Condor Galaxy 1 (CG-1), предназначенный для решения ресурсоёмких задач с применением ИИ. Это одна из первых действительно крупных машин на базе уникальных чипов Cerebras. В проекте стоимостью $100 млн приняла участие холдинговая группа G42 из ОАЭ, которая занимается технологиями ИИ и облачными вычислениями. G42 является основным заказчиком комплекса. В текущем виде комплекс CG-1, расположенный в Санта-Кларе (Калифорния, США), объединяет 32 системы Cerebras CS-2 и обеспечивает производительность на уровне 2 Эфлопс (FP16). В IV квартале ткущего года будут добавлены ещё 32 системы Cerebras CS-2, что позволит довести быстродействие до 4 Эфлопс (FP16). Ожидаемый уровень энергопотребления составит порядка 1,5 МВт или более. В системах Cerebras CS-2 применяются гигантские чипы Wafer-Scale Engine 2 (WSE-2), насчитывающие 2,6 трлн транзисторов. Такие чипы имеют 850 тыс. тензорных ядер и несут на борту 40 Гбайт памяти SRAM. Системы выполнены в формате 15 RU и укомплектованы шестью блоками питания мощностью 4 кВт каждый. Задействована технология жидкостного охлаждения. Отдельно отмечается, что программный стек позволит без проблем и существенных модификаций кода работать с ИИ-моделями. После ввода в строй второй очереди комплекс CG-1 суммарно получит 54,4 млн ИИ-ядер, 2,56 Тбайт SRAM и внутренний интерконнект со скоростью 388 Тбит/с. Их дополнят 72 704 ядра AMD EPYC Milan и 82 Тбайт памяти для хранения параметров. По словам создателей, мощностей суперкомпьютера хватит для обучения модели с 600 млрд параметров и на очередях длиной до 50 тыс. токенов. При этом производительность масштабируется практически линейно. Cerebras и G42 будут предоставлять доступ к CG-1 по облачной схеме, что позволит заказчикам использовать ресурсы ИИ-суперкомпьютера без необходимости управлять моделями или распределять их по узлам и ускорителям. CG-1 — первый из трёх ИИ-суперкомпьютеров нового поколения. В I полугодии 2024 года будут построены комплексы CG-2 и CG-3, полностью аналогичные CG-1, которые будут объединены в распределённый ИИ-кластер. А к концу следующего года у Cerebras будет уже девять систем CG. Для Cerebras это означает, что компания более не является стартапом, поскольку в её решения заказчики поверили и без участия в индустриальных тестах вроде MLPerf. Кроме того, теперь компания является не просто очередным производителем «железа», а предоставляет услуги, которые и помогут ей заработать в будущем.
29.05.2023 [07:30], Сергей Карасёв
NVIDIA представила 1-Эфлопс ИИ-суперкомпьютер DGX GH200: 256 суперчипов Grace Hopper и 144 Тбайт памятиКомпания NVIDIA анонсировала вычислительную платформу нового типа DGX GH200 AI Supercomputer для генеративного ИИ, обработки огромных массивов данных и рекомендательных систем. HPC-платформа станет доступна корпоративным заказчикам и организациям в конце 2023 года. Платформа представляет собой готовый ПАК и включает, в частности, наборы ПО NVIDIA AI Enterprise и Base Command. Для платформы предусмотрено использование 256 суперчипов NVIDIA GH200 Grace Hopper, объединённых при помощи NVLink Switch System. Каждый суперчип содержит в одном модуле Arm-процессор NVIDIA Grace и ускоритель NVIDIA H100. Задействован интерконнект NVLink-C2C (Chip-to-Chip), который, как заявляет NVIDIA, значительно быстрее и энергоэффективнее, нежели PCIe 5.0. В результате, скорость обмена данными между CPU и GPU возрастает семикратно, а затраты энергии сокращаются примерно в пять раз. Пропускная способность достигает 900 Гбайт/с. Технология NVLink Switch позволяет всем ускорителям в составе системы функционировать в качестве единого целого. Таким образом обеспечивается производительность на уровне 1 Эфлопс (~ 9 Пфлопс FP64), а суммарный объём памяти достигает 144 Тбайт — это почти в 500 раз больше, чем в одной системе NVIDIA DGX A100. Архитектура DGX GH200 AI Supercomputer позволяет добиться 10-кратного увеличения общей пропускной способности по сравнению с HPC-платформой предыдущего поколения. Ожидается, что Google Cloud, Meta✴ и Microsoft одними из первых получат доступ к суперкомпьютеру DGX GH200, чтобы оценить его возможности для генеративных рабочих нагрузок ИИ. В перспективе собственные проекты на базе DGX GH200 смогут реализовывать крупнейшие провайдеры облачных услуг и гиперскейлеры. Для собственных нужд NVIDIA до конца 2023 года построит суперкомпьютер Helios, который посредством Quantum-2 InfiniBand объединит сразу четыре DGX GH200. |
|
