Материалы по тегу: hpc

24.06.2022 [19:37], Алексей Степин

Cerebras Systems поставила рекорд в области машинного обучения для одиночных систем

За успехами компании Cerebras Systems с её необычными детищами, сверхбольшими процессорами Cerebras, занимающими целую кремниевую подложку, наблюдать как минимум интересно. Её системы необычны, но в деле машинного обучения им, похоже, нет равных — одна-единственная платформа Cerebras CS-2 может заменить при обучении крупной модели едва ли не целый кластер. И это компания доказала делом, установив новый рекорд.

Суть рекорда заключается в том, что на Cerebras CS-2 была натренирована самая большая ИИ-модель в мире, когда-либо обучавшаяся на одиночном устройстве (кластерные системы не в счёт). Конечно, «одиночность» CS-2 несколько условна, но всё же может считаться таковой, поскольку один аппаратный шкаф CS-2 содержит ровно один чип WSE-2, а комплекс HPE Superdome Flex, «скармливавший» ему данные, считается вспомогательным.

Сравнительные характеристики WSE-1 и WSE-2. Источник: Cerebras Systems

Речь идёт о тренировке модели с 20 млрд параметров, чего не может никакая другая одиночная система в мире. Открывая доступ к обучению столь сложных нейросетей, Cerebras оказывает услугу исследователям в области машинной обработки естественных языков, поскольку время обучения серьёзной модели может сократиться с месяцев до минут, при этом исключается необходимость трудоёмкой операции разделения (partitioning) модели по узлам традиционной кластерной системы — вся она запускается в «монолитном» режиме.

Конструкция CS-2 и некоторые её технические параметры. Источник: Cerebras Systems

Кроме того, модели такого размера требуют и немалых средств — далеко не каждый исследователь обладает достаточным для аренды кластера бюджетом. Но CS-2 сделает демократичными даже такие огромные модели, как GPT-3 1.3B, GPT-J 6B, GPT-3 13B и GPT-NeoX 20B. Их запуск стал возможен с последним обновлением фирменного ПО Cerebras Software Platform. Радуются новой возможности и генетики из GSK, использующие огромные по объему наборы данных.

Напомним, что сердце CS-2, процессор WSE-2, по праву считается крупнейшим в мире — он содержит 850 тыс. ядер, оптимизированных под задачи, характерные для машинного обучения. Чтобы «накормить» такой нейропроцессор данными и исключить простои, используется сразу 12 каналов со скоростью 100 Гбит/с. За снабжение данными отвечает отдельный суперсервер HPE Superdome Flex 280, сам по себе обладающий весьма впечатляющими характеристиками.

Постоянный URL: http://servernews.ru/1068800
23.06.2022 [20:31], Алексей Степин

2-Эфлопс cуперкомпьютер El Capitan получит новейшие APU AMD MI300

До ввода в строй нового кластера Лос-Аламосской национальной лаборатории (LLNL) под названием El Capitan ещё остается немало времени. Тестовые мини-кластеры El Capitan уже показывают неплохие результаты; в их основе лежит привычное сочетание процессоров AMD EPYC Milan и ускорителей Instinct MI250X, однако финальная версия суперкомпьютера, как оказалось, будет использовать более прогрессивную новинку — новейшие APU MI300.

Об этом на очередном мероприятии HPC User Forum поведал миру глава центра высокопроизводительных вычислений LLNL. Поскольку полномасштабный запуск El Capitan назначен на конец 2023 года, времени на переход от EPYC 7003 с дискретными модулями ускорителей Instinct к высокоинтегрированному MI300 должно хватить. При этом ожидается, что машина будет активно эксплуатироваться минимум до 2030 года.

 Источник: LLNL

Источник: LLNL

MI300 — амбициозный проект AMD, который должен показать, что компания полностью освоила все преимущества чиплетной технологии: на одной подложке будут установлены чиплеты процессорных ядер Zen 4 (Genoa), блоки ускорителей с архитектурой CDNA3, модули кеша и сборки сверхбыстрой памяти типа HBM3. Таким образом, MI300 с полным основанием претендует на звание первого в мире действительно универсального процессора для HPC-систем, способного работать с любыми видами нагрузок.

 Источник: LLNL (via TheNextPlatform)

Источник: LLNL (via TheNextPlatform)

Общий уровень энергопотребления El Capitan планируется удержать в рамках 40 МВт (а не 35 МВт) при FP64-производительности свыше 2 Эфлопс — удельный показатель составит порядка 50 Гфлопс/Вт. В последнем рейтинге Green500 кластер Frontier TDS показал почти 63 Гфлопс/Вт, тогда как для суперкомпьютера Frontier целиком удалось добиться 52,23 Гфлопс/Вт. В El Capitan лаборатория перейдет от использования проприетарного системного и управляющего ПО к собственному стеку NNSA Tri-Lab Operating System Stack (TOSS).

 Такие узлы HPE Cray EX235a используются в тестовых кластерах El Capitan. Переход на MI300 упростит конструкцию. Источник: HPC Wire

Такие узлы HPE Cray EX235a используются в тестовых кластерах El Capitan. Переход на MI300 упростит конструкцию. Источник: HPC Wire

Также было упомянуто, что у КНР есть уже два экзафлопсных суперкомпьютера, а «глобальные соперники» США за последние годы модернизировали свой ядерный арсенал. Подобная задача теперь стоит и перед самими Соединёнными Штатами. Национальное управление ядерной безопасности (National Nuclear Security Administration, NNSA) возложит эту миссию на El Capitan, начиная со II квартала 2024 года.

Напомним, на очереди среди всех экзафлопсных систем США этот суперкомпьютер третий, вторым же является 2-Эфлопс Aurora, система HPE с изрядно задержавшимися процессорами Intel Sapphire Rapids и ускорителями Ponte Vecchio, которая устанавливается в Аргоннской национальной лаборатории. Но MI300 — не единственный HPC-гибрид. В скором времени появятся несколько машин с чипами NVIDIA Grace Hopper.

Постоянный URL: http://servernews.ru/1068718
17.06.2022 [14:14], Сергей Карасёв

СЖО CoolIT обеспечили охлаждение узлов экзафлопсного суперкомпьютера Frontier

Компания CoolIT Systems, разработчик систем прямого жидкостного охлаждения DLC (Direct Liquid Cooling), сообщает о том, что её решения применяются в самом мощном (во всяком случае, официально) суперкомпьютере мира. Речь идёт о вычислительном комплексе Frontier, который смонтирован в Окриджской национальной лаборатории Министерства энергетики США.

Суперкомпьютер Frontier возглавляет нынешний рейтинг TOP500 с производительностью 1,102 Эфлопс в тесте Linpack. Более того, малый комплекс в составе этой же машины лидирует и в свежем рейтинге Green500 — списке мощнейших вычислительных систем мира, обеспечивающих наиболее высокую энергетическую эффективность. Показатель кластера Frontier TDS составляет 62,68 Гфлопс/Вт. У Frontier целиком он равен 52,23 Гфлопс/Вт, так что он занимает второе место в Green500.

 Frontier (Источник: HPE/ORNL)

Frontier (Источник: HPE/ORNL)

Отмечается, что таких результатов удалось добиться во многом благодаря системе прямого жидкостного охлаждения CoolIT. Она охватывает 74 шкафа HPE Cray EX, которые содержат в общей сложности 9408 узлов. Задействована фирменная запатентованная технология CoolIT SplitFlow. Технология CoolIT используется для охлаждения четырёх из десяти мощнейших суперкомпьютеров и четырёх из пяти самых энергоэффективных суперкомпьютеров в мире.

 Узел HPE Cray EX235a (Источник: HPC Wire)

Узел HPE Cray EX235a (Источник: HPC Wire)

Так что соглашение о расширении сотрудничества, заключённое в 2020 году между HPE и CoolIT, оказалось выгодным для обеих компаний. Тогда же CoolIT смогла отбиться от патентных претензий со стороны своего прямого конкурента в лице компании Asetek. Последняя приняла в прошлом году вынужденное решение покинуть HPC-рынок, а вот CoolIT начала наращивать выручку в этом сегменте.

Постоянный URL: http://servernews.ru/1068283
17.06.2022 [00:40], Игорь Осколков

MareNostrum-5 станет самым быстрым ИИ-суперкомпьютером ЕС

У MareNostrum-5 непростая судьба — проект был заморожен прошлым летом из-за разногласий между участниками, причём произошло это тогда, когда машинный зал в Барселонском суперкомпьютерном центре был уже практически готов. Участники не смогли выбрать поставщика оборудования между IBM с Lenovo и Atos. Теперь же стало известно, что победила Atos, весьма вовремя представившая новую HPC-платформу BullSequana XH3000.

Правда, теперь MareNostrum-5 уже не претендует на звание самого быстрого суперкомпьютера Европы в FP64-вычислениях, поскольку его производительность составит 314 Пфлопс. Но вот в ИИ-нагрузках, как сообщила NVIDIA изданию HPCWire, в Евросоюзе ему равных не будет — ожидаемый уровень производительности в этом случае составит 18 Пфлопс. Основу систему составят Arm-процессоры Grace Superchip, которые будут дополнены ускорителями H100, интерконнектом InfiniBand NDR (Quantum-2), 200-Пбайт СХД и 400-Пбайт архивным хранилищем.

 Изображение: BSC

Изображение: BSC

Это будет вторая после ALPS крупная европейская система, построенная на Arm-чипах Grace. Стоимость MareNostrum-5 составит €151,41 млн. Половину этой суммы оплатит EuroHPC и половина же машинного времени достанется участникам консорциума. Остальные расходы поделят между собой Испания, Португалия и Турция. Новый суперкомпьютер будет использоваться в первую очередь для медицинских исследований, разработки лекарств, создания вакцин, изучения распространения вирусов, а также для задач ИИ и Big Data.

 Изображение: BSC

Изображение: BSC

Впрочем, более традиционные HPC-нагрузки в области климатологии, инженерных расчётов, материаловедения и т.д. на нём тоже будут выполняться. Машина будет обладать высокой энергоэффективностью. Питать её планируется исключительно от «зелёных» источников энергии, а выделяемое тепло будет утилизировано. В этом отношении она будет похожа на финский LUMI, самый быстрый европейский суперкомпьютер на сегодняшний день. Но скоро LUMI должен будет уступить первое место экзафлопсной системе JUPITER (Германия).

Помимо LUMI под патронажем EuroHPC сейчас находятся четыре суперкомпьютера: MeluXina (Люксембург), Karolina (Чехия), Discoverer (Болгария) и Vega (Словения). В скором времени будут введены в строй системы LEONARDO (Италия) и Deucalion (Португалия). Вместе с JUPITER были анонсированы ещё четыре суперкомпьютера: DAEDALUS (Греция), LEVENTE (Венгрия), CASPIr (Ирландия) и EHPCPL (Польша). Ну а MareNostrum-5 должен заработать в 2023 году.

Постоянный URL: http://servernews.ru/1068233
15.06.2022 [23:40], Алексей Степин

Анонсирован первый европейский суперкомпьютер экзафлопсного класса — JUPITER

Всемирная гонка суперкомпьютеров экзафлопсного класса продолжается, и теперь в игру, наконец, вступил Евросоюз — консорциума EuroHPC сегодня раскрыл некоторые подробности о первой европейской система подобного уровня. Им станет машина под названием JUPITER (Joint Undertaking Pioneer for Innovative and Transformative Exascale Research), которая должна будет войти в строй в следующем году.

Система будет смонтирована в Юлихском исследовательском центре (FZJ) в Германии. Сведений об аппаратной начинке JUPITER пока не так много, но в конструкции нового HPC-монстра будет применён тот же модульный подход, что был опробован на его предшественнике, суперкомпьютере JUWELS. Последний вступил в строй в 2018 году и на данный момент содержит несколько кластеров и бустеров с различной архитектурой.

 Архитектура европейской экзафлопсной системы включает необычные средства. Источник: FZJ

Архитектура европейской экзафлопсной системы включает необычные средства. Источник: FZJ

Новая система получит отдельные модули, куда входят вычислительные узлы, пулы памяти, узлы с различными ускорителями, узлы визуализации и т.д. Более того, она может быть дополнена блоками, которые содержат нейроморфные и квантовые системы, а также любые вычислительные модули, построенные на технологиях Евросоюза. Стоимость JUPITER оценивается примерно в €502 млн. Половину оплатит EuroHPC, четверть предоставит Министерство образования и науки Германии, оставшаяся четверть придётся на долю Министерства культуры и науки Северной Рейн-Вестфалии.

 Машинный зал JUWELS. Источник: FZJ

Машинный зал JUWELS. Источник: FZJ

Проектировщики уделят серьёзное внимание энергоэффективности новой системы. Ожидается, что её потребление составит около 15 МВт, то есть она будет экономичнее нынешнего лидера TOP500 в лице Frontier. Для питания JUPITER планируется задействовать возобновляемые источники энергии, а СЖО будет использовать теплоноситель с относительно высокой рабочей температурой. Рассматривается возможность утилизации выделяемого системой тепла, как это реализовано в финском LUMI.

 Страны, уже запустившие системы EuroHPC отмечены тёмно-синим, светло-синие — в процессе, жёлтым отмечены новички

Страны, уже запустившие системы EuroHPC отмечены тёмно-синим, светло-синие — в процессе, жёлтым отмечены новички. Источник: EuroHPC

Консорциум также анонсировал ещё четыре, более скромных суперкомпьютера. Это греческий DAEDALUS, венгерский LEVENTE, ирландский CASPIr и польский EHPCPL. В течение следующих нескольких лет EuroHPC планирует ввести в строй ещё минимум два суперкомпьютера экзафлопсного класса, так что гонка за зеттафлопом станет ещё интереснее. Впрочем, и Европе, и США надо опасаться в первую очередь Китая.

Постоянный URL: http://servernews.ru/1068139
14.06.2022 [16:33], Владимир Мироненко

В Финляндии официально запущен LUMI, самый мощный суперкомпьютер в Европе

HPE и EuroHPC официально ввели в эксплуатацию вычислительную систему LUMI, установленную в ЦОД центре IT Center for Science (CSC) в Каяани (Финляндия), которая на данный момент считается самым мощным суперкомпьютером в Европе. LUMI — это первая система предэкзафлопсного класса, созданная в рамках совместного европейского проекта EuroHPC.

LUMI будет в основном использоваться для решения важных для общества задач, включая исследования в области изменения климата, медицины, наук о жизни и т.д. Система будет применяться для приложений, связанных с высокопроизводительными вычислениями (HPC), искусственным интеллектом и аналитикой данных, а также в областях их пересечения. Для отдельных пользователей суперкомпьютер будет доступен в рамках второй пилотной фазы в августе, а полностью укомплектованная система станет общедоступной в конце сентября.

 Суперкомпьютер LUMI (Фото: Pekka Agarth)

Суперкомпьютер LUMI (Фото: Pekka Agarth)

Суперкомпьютер стоимостью €202 млн принадлежит EuroHPC (JU). Половина из этой суммы была предоставлена Евросоюзом, четверть — Финляндией, а остальная часть средств поступила от остальных членов консорциума, включающего 10 стран. По состоянию на 30 мая LUMI занимал третье место в списке TOP500 самых быстрых суперкомпьютеров мира. Сейчас его производительность составляет 151,9 Пфлопс при энергопотреблении 2,9 МВт.

LUMI (снег в переводе с финского) базируется на системе HPE Cray EX. Система состоит из двух комплексов. Блок с ускорителями включает 2560 узлов, каждый из которых состоит из одного 64-ядерного кастомного процессора AMD EPYC Trento и четырёх AMD Instinct MI250X. Второй блок под названием LUMI-C содержит только 64-ядерные CPU AMD EPYC Milan в 1536 двухсокетных узлах, имеющих от 256 Гбайт до 1 Тбайт RAM.

 Дата-центр LUMI (Фото: Fade Creative)

Дата-центр LUMI (Фото: Fade Creative)

LUMI также имеет 64 GPU NVIDIA A40, используемых для рабочих нагрузок визуализации, и узлы с увеличенным объёмом памяти (до 32 Тбайт на кластер). Основной интерконнект — Slingshot 11. Хранилище LUMI построено на базе СХД Cray ClusterStor E1000 c ФС Lustre: 8 Пбайт SSD + 80 Пбайт HDD. Также есть объектное Ceph-хранилище ёмкостью 30 Пбайт. Агрегированная пропускная способность СХД составит 2 Тбайт/с. В ближайшее время суперкомпьютер получит дополнительные узлы.

После завершения всех работ производительность суперкомпьютера, как ожидается, вырастет примерно до 375 Пфлопс, а пиковая производительность потенциально превысит 550 Пфлопс. Общая площадь комплекса составит порядка 300 м2, а энергопотребление вырастет до 8,5 МВт. Впрочем, запас у площадки солидный — от ГЭС она может получить до 200 МВт. «Мусорное» тепло идёт на обогрев местных домов.

Постоянный URL: http://servernews.ru/1067997
14.06.2022 [00:00], Алексей Степин

Tachyum о процессоре Prodigy: 128 VLIW-ядер с частотой 5,7 ГГц будут потреблять 950 Вт

В виде платформы прототипирования на базе FPGA процессор Tachyum Prodigy существует и успешно запускает Linux, но четыре мощных ПЛИС симулируют лишь 8 ядер, тогда как Tachyum говорит о максимальной конфигурации реальных процессоров, содержащей 128 ядер и 16 каналов DDR5 с предельной ПСП на уровне 921,6 Гбайт/с и объёмом 8 Тбайт на процессор. Но даже нацеленность на использование продвинутого техпроцесса TSMC N5P не решает одной важной проблемы, свойственной всем процессорам типа VLIW.

Для достижения действительно высокой производительности им обычно нужна либо тщательнейшая оптимизация кода во время компиляции, либо высокая тактовая частота, которая позволит компенсировать простои исполнительного конвейера. Tachyum как минимум отчасти полагается на второй, экстенсивный путь и говорит о частоте 5,7 ГГц — это очень много даже по меркам новейших процессоров на базе архитектур x86 и Arm.

 Система симуляции кремния Tachuym Prodigy. Слева расположена плата с FPGA. Источник: Tachyum

Система симуляции кремния Tachuym Prodigy. Слева расположена плата с FPGA. Источник: Tachyum

И если модель начального уровня Prodigy T832-LP, располагая всего 32 ядрами и работая на частоте 3,2 ГГц, будет обладать теплопакетом 180 Вт, то аналогичный процессор, разогнанный до 5,7 ГГц, добирается до 300 Вт, а флагманский T16128-AIX — и вовсе до 950 Вт! И всё это несмотря на использование 5-нм технологических норм. Иными словами, потребуется серьезнейшая система охлаждения, особенно для двух- и четырёхпроцессорных серверов на базе Prodigy.

Немецкий ресурс Golem.de опубликовал цифры производительности новинок: вышеупомянутый 128-ядерный чип должен развивать до 90 Тфлопс в классическом режиме FP64 и 12 Пфлопс/Попс в сценариях инференса и обучения нейросетей. Для сравнения, AMD Instinct MI250X развивает 95,7 Тфлопс в FP64-вычислениях при мощности в районе 560 Вт, а 700-Вт SXM-версия NVIDIA H100 предложит до 60 Тфлопс в FP64-расчётах на Tensor-ядрах и 2–4 Пфлопс/Попс на вычислениях смешанной точности в зависимости от формата данных.

 Будущий модельный ряд процессоров Tachyum Prodigy. Источник: Golem.de

Будущий модельный ряд процессоров Tachyum Prodigy. Источник: Golem.de

Иными словами, как и было сказано, VLIW не отличается высокой энергоэффективностью, но у Prodigy есть одно качество, которого нет ни у Instinct, ни у Hopper — он может работать, как процессор общего назначения, выполняя любой код. Как и было рассказано ранее, каждое ядро будет содержать два 1024-битных блока векторных вычислений и 4096-битный блок матричных вычислений, а также по 64 Кбайт L1d- и L1i-кеша, 1 Мбайт L2-кеша и виртуальный L3-кеш, формируемый из L2-кешей простаивающих соседних ядер.

Архитектура Tachyum как таковая не предусматривает внеочередного исполнения, но оптимизация на уровне компилятора допускает до 4 внеочередных инструкций (4-way out-of-order issues). А благодаря ряду оптимизаций Prodigy должен продемонстрировать высочайшую степень параллелизма. Лучше всего архитектура должна показать себя с «родным» кодом, но сможет исполнять и код x86, Arm и RISC-V, правда, на текущий момент ценой потери производительности на уровне 30–40% в случае бинарной трансляции в Qemu.

 Спецификации Prodigy T16128. Источник: Tachyum

Спецификации Prodigy T16128. Источник: Tachyum

Поставка первых реальных процессоров Prodigy первого поколения намечена на конец этого или начало следующего года. Если всё пойдёт по плану, первые пробные кристаллы Prodigy будут выпущены в августе. Их площадь может не превысить 500 мм2. Полноценные образцы должны появиться в декабре, и если их работоспособность подтвердится тестированием, массовое производство может начаться уже в первой половине 2023 года.

До появления реальных чипов сложно сказать, сможет ли новинка избежать судьбы Transmeta Crusoe и Intel Itanium. Пока что сколько-то массовые серверные VLIW-процессоры по большому счёту представлены на рынке только российскими «Эльбрусами», новое поколение которых должно было выйти в этом году. В планах Tachyum уже фигурирует Prodigy 2, который будет разработан с использованием процесса TSMC N3, станет вдвое производительнее при прежнем потреблении, а также получит поддержку PCI Express 6.0.

Постоянный URL: http://servernews.ru/1067939
13.06.2022 [16:34], Руслан Авдеев

Площадка для будущего 2-Эфлопс суперкомпьютера El Capitan готова: 85 МВт + мощная система охлаждения

Национальное управление ядерной безопасности (NNSA) при Министерстве энергетики США официально закончило реконструкцию ЦОД при Ливерморской национальной лаборатории (LLNL) в рамках проекта Exascale Computing Facility Modernization. Обновлены энергетическая система и система охлаждения местного вычислительного центра для использования вычислительных мощностей экзафлопсного уровня.

Первой новой действующей системой NNSA станет 2-Эфлопс суперкомпьютер El Capitan, предназначенный для выполнения задач Ливерморской лаборатории, Лос-Аламосской национальной лаборатории и Сандийской национальной лаборатории. По словам представителя NNSA, экзафлопсные вычисления помогут стране в важных, неотложных проектах модернизации вооружений.

 Источник изображения: Department of Energy

Источник изображения: Department of Energy

Обновление позволит Ливерморской лаборатории выполнять ресурсоёмкие задачи, 3D-моделирование и симуляцию процессов, связанных с реализацией военных проектов — это необходимо для того, чтобы соответствовать требованиям к сертификации Программы сопровождения ядерного арсенала, реализуемой под эгидой NNSA, основной миссией которой декларируется расширение возможностей американских средств ядерного сдерживания.

Сейчас стадия обновления ЦОД завершена и намечен переход к следующим этапам. В результате реализации проекта более, чем удвоилась охлаждающая мощность объекта — теперь он способен ежедневно поглощать количество тепла, достаточного для того, чтобы растопить 28 тыс. тонн льда. Энергетическая мощность ЦОД увеличена с 45 до 85 МВт, а в процессе строительства были обновили линии электропередач, подстанции и управляющее оборудование.

Ожидается, что итоговая производительность El Capitan составит более 2 Эфлопс, а потреблять он будет порядка 30–35 МВт. Проработать он должен до 2029 года, однако параллельно будет строиться ещё один суперкомпьютер нового поколения. Некоторые предполагают, что подобные площадки станут последними в своём роде, в первую очередь из-за проблем с электропитанием.

Постоянный URL: http://servernews.ru/1067919
10.06.2022 [20:02], Алексей Степин

Первые серверные APU AMD MI300 объединят архитектуры CDNA 3 и Zen 4

Идея интеграции классического процессора с графическим не нова — очень многие клиентские CPU/APU сегодня построены именно по такой схеме. В мире серверов и HPC эта концепция внедряется не так быстро, но на мероприятии Financial Analyst Day 2022 компания AMD рассказала о планах по созданию своего первого 5-нм гибридного APU MI300. Этот чип, запланированный на 2023 год, должен объединить в себе архитектуры Zen 4 и CDNA 3.

 MI300 Источник: AMD

MI300 Источник: AMD

Как известно, текущее поколение ускорителей Instinct MI200 использует вторую версию архитектуры CDNA, и теперь мы знаем о планах «красных» по внедрению следующей версии. В отличие от других планов AMD, касающихся графических процессоров и завязанных на двухгодичный цикл обновления, серверные варианты ускорителей будут обновляться раз в год. Компания также раскрыла часть деталей, относящихся к CDNA 3.

 Источник: AMD

Источник: AMD

Во-первых, весь «кремний» CDNA 3 будет производиться с использованием 5-нм техпроцесса (TSMC N5/N5P), и, как и CDNA 2, он будет базироваться на чиплетной компоновке с отдельными кристаллами для памяти, кешей и вычислительных ядер. При этом AMD называет свою технологию 3D chiplet, то есть, речь идёт о плотной вертикально-горизонтальной компоновке. Так, чиплеты кеша будут располагаться под процессорными, а на самый верх «стопки» компания вынесет чиплеты логики, как наиболее прожорливые и горячие.

 Источник: AMD

Источник: AMD

Самым важным новшеством в CDNA — четвёртое поколение Infinity Architecture, позволяющее, в числе прочего, сделать подсистему памяти полностью унифицированной и когерентной — в MI200 реализована только когерентность, но не единое адресное пространство. Иными словами, если старшие варианты MI200 всё ещё выглядят как пара ускорителей, то решения на базе CDNA 3 с точки зрения системы будут выглядеть и функционировать как единый чип, несмотря на чиплетную компоновку.

Источник: AMD

Что касается памяти, то это, конечно же, общая для всех HBM. Тип не уточняется, но можно с достаточной степенью уверенности предположить, что это будет HBM3. Об архитектурных улучшениях в сценариях машинного обучения известно пока немного, известно, что в CDNA 3 появится поддержка новых смешанных типов вычислений, зато AMD уверенно обещает более чем в 5 раз поднять производительность на Вт в такого рода задачах. Надо полагать, что достигнуто это будет существенным увеличением качества и количества движков для матричных вычислений.

Источник: AMD

Но самое интересное в свежих планах AMD — проект MI300. Об интеграции классических CPU с ускорителями говорилось давно, однако недостаточно тонкие и энергоэффективные техпроцессы не позволяли создать чип, укладывающийся в разумные рамки энергопотребления и тепловыделения. С 5-нм оптимизированным техпроцессом это, похоже, становится возможным.

Источник: AMD

MI300 должен объединить в себе архитектуры CDNA 3 и Zen 4, причём, благодаря Infinity Architecture они смогут равноправно пользоваться всеми ресурсами памяти (и, возможно, кешей), имеющимися на чипе, что исключает копирование одного и того же набора данных между пулами памяти, лишь снижающего общую эффективность. Не исключено также, что отпадёт нужда во внешней DRAM благодаря наличию на борту этого монстра собственного объёмного пула HBM. Впрочем, новый вариант Infinity получил поддержку CXL 2.0, что упростит работу с внешними пулами DRAM.

 Источник: AMD

Источник: AMD

Пока неизвестно, сколько процессорных ядер и сколько ядер CDNA 3 получит MI300, но AMD заявляет, что новинка более чем в 8 раз превзойдёт MI250X в задачах обучения ИИ-моделей. В целом, планы AMD хорошо укладываются в современную тенденцию гибкой компоновки ресурсов в рамках чипа: этим же путём идут NVIDIA со своим проектом Grace Hopper (процессорные ядра Grace + H100) и Intel, разрабатывающая XPU Falcon Shores (x86 + Xe). Сама AMD также планирует интегрировать CPU и FPGA.

Постоянный URL: http://servernews.ru/1067751
08.06.2022 [15:20], Алексей Степин

NVIDIA выбрала процессоры Intel Xeon Sapphire Rapids для своих топовых систем DGX H100

В популярных ныне HPC-системах ведущую роль в обеспечении производительности зачастую играют ускорители, располагающие огромными массивами универсальных вычислительных ядер. Однако все их надо вовремя «кормить» данными, и здесь на первый план выходит пропускная способность интерконнекта. В своё время NVIDIA для DGX A100 выбрала AMD EPYC, единственные массовые на тот момент CPU с поддержкой PCI Express 4.0.

Однако Intel удалось, наконец, справиться с технологическим отставанием по этой части, так что процессоры Xeon поколения Sapphire Rapids получили не только новые расширения, но и поддержку PCI Express 5.0/CXL. И это, возможно, одна из основных причин, по которой корпорация NVIDIA на конференции BofA Securities 2022 объявила о том, что новая система DGX H100 будет использовать именно Sapphire Rapids, а не AMD EPYC Genoa, хотя дизайн системных плат прорабатывался и для этого процессора.

 DGX H100. Источник: NVIDIA

DGX H100. Источник: NVIDIA

Новинка должна увидеть свет в конце этого года, она получит два процессора Xeon Sapphire Rapids, 2 Тбайт системной памяти и 8 ускорителей NVIDIA H100 на базе архитектуры Hopper, объединённых четвёртым поколением интерконнекта NVLink. Общий объём пула HBM3-памяти ускорителей составит 640 Гбайт, чего достаточно для достаточно серьёзных моделей машинного обучения; производительность же в типичном для этого режиме FP8 составит 32 Пфлопс.

Для загрузки машина получит пару NVMe-накопителей объёмом 1,9 Тбайт каждый, встроенное хранилище данных будет состоять из 8 дисков NVMe U.2 объёмом по 3,84 Тбайт. Сетевая часть также достаточно любопытна: только для управления DGX H100 имеет порт 10GbE (50GbE опционально), основная же сетевая часть представлена 400G-адаптерами ConnectX-7 и DPU BlueField-3.

 Источник: Intel

Источник: Intel

Глава корпорации, Дженсен Хуанг (Jensen Huang) также отметил, что NVIDIA продолжит поддержку процессоров с архитектурой x86, в том числе, и для новых суперкомпьютеров, несмотря на разработку собственной серии Arm-процессоров Grace (Hopper). Эти чипы также используют NVLink 4.0 с пропускной способностью 900 Гбайт/с и используются в платформе HGX.

Однако Intel Sapphire Rapids заслужил отдельной похвалы за «великолепную производительность в однопоточном режиме». В настоящее время, отметил Хуанг, новый процессор Intel проходит квалификационное тестирование гиперскейлерами по всему миру, а также тестируется в качестве основного CPU для будущих суперкомпьютеров NVIDIA.

Постоянный URL: http://servernews.ru/1067551
Система Orphus