Материалы по тегу: intel max

23.12.2023 [02:11], Владимир Мироненко

В Испании официально запустили 314-Пфлопс суперкомпьютер MareNostrum 5, который вскоре объединится с двумя квантовыми компьютерами

21 декабря в Суперкомпьютерном центре Барселоны — Centro Nacional de Supercomputación (BSC-CNS) — в торжественной обстановке официально запустили европейский суперкомпьютер MareNostrum 5 производительностью 314 Пфлопс. В церемонии, посвящённой машине, созданной в рамках проекта European High Performance Computing Joint Undertaking (EuroHPC JU), принял участие председатель правительства Испании.

MareNostrum 5 представляет собой крупнейшую инвестицию, когда-либо сделанную Европой в научную инфраструктуру Испании — суммарно €202 млн, из которых €151,4 млн ушло на приобретение суперкомпьютера. Финансирование было проведено EuroHPC JU через Фонд ЕС «Соединение Европы» и программу исследований и инноваций «Горизонт 2020», а также государствами-участниками: Испанией (через Министерство науки, инноваций и университетов и правительство Каталонии), Турцией и Португалией.

С запуском MareNostrum 5 заметно укрепились позиции BSC в качестве одного из ведущих суперкомпьютерных центров мира с более чем 900 сотрудниками, занимающимися исследования в области информатики, наук о жизни и о Земле, а также вычислительных систем для науки и техники. Обладая максимальной общей производительностью 314 Пфлопс, MareNostrum 5 присоединяется к двум другим системам EuroHPC: Lumi (Финляндия) и Leonardo (Италия), тоже являющихся суперкомпьютерами предэкзафлопсного класса, единственными системами такого уровня в Европе.

 Источник изображений: BSC

Источник изображений: BSC

Eviden (Atos) была выбрана в качестве основного поставщика, но в создании машины приняли участие Lenovo, IBM, Intel и NVIDIA, а также Partec. Как отмечено в пресс-релизе, уникальная архитектура MareNostrum 5 была создана для того, чтобы предоставить исследователям лучшие из доступных технологий. Это гетерогенная машина, сочетающая в себе две отдельные системы: раздел общего назначения (GPP), предназначенный для классических вычислений, и GPU-раздел (ACC), ориентированный на ИИ. Обе системы по отдельности входят в первую двадцатку TOP500, занимая 19-е и 8-е места соответственно.

Раздел общего назначения (GPP) является крупнейшим в мире x86-кластером на базе Intel Xeon Sapphire Rapids. Эта часть суперкомпьютера имеет пиковую производительность 45,9 Пфлопс. Система, произведённая Lenovo, специально разработана для решения сложных научных задач с разделением ресурсов, что обеспечивает большую гибкость и повышает эффективность системы, поскольку разные пользователи или проекты могут использовать её одновременно. GPP имеет 6408 стандарных узлов следующей конфигурации:

  • 2 × Intel Xeon 8480+ (56 ядер, 2 ГГц);
  • 256 Гбайт DDR5 (216 узлов с 1 Тбайт RAM);
  • NVMe SSD на 960 Гбайт;
  • 1 × InfiniBand NDR200, общий для двух узлов (SharedIO, 100 Гбит/с на узел).

Дополнительно система имеет 72 узла с двумя 56-ядерными Xeon Max (1,7 ГГц) и набортной памятью HBM2e объёмом 128 Гбайт.

GPU-раздел (ACC) производства Eviden является третьим по мощности в Европе и восьмым в мире по версии TOP500, с пиковой производительностью 260 Пфлопс. Он основан на 4480 ускорителях NVIDIA H100. Раздел имеет 1120 узлов, каждый из которых включает:

  • 2 × Intel Xeon 8460Y+ (32 яда, 2,3 ГГц);
  • 512 Гбайт DDR5;
  • 4 × NVIDIA H100 с 64 Гбайт HBM3;
  • NVMe SSD на 460 Гбайт;
  • 4 × InfiniBand NDR200.

Общая ёмкость хранилища MareNostrum 5 составляет 650 Пбайт, из которых, 402 Пбайт приходятся на LTO, 248 Пбайт — на HDD, а остальное — на NVMe SSD. Задействована ФС IBM Spectrum Scale. Машина использует интерконнект InfiniBand NDR200, объединяющий более 8000 узлов. Можно заметить, что NVIDIA предоставила BSC не совсем стандартные решения. В будущем ожидается появление ещё одного GPP-раздела на базе NVIDIA Grace, а вот расширение ACC узлами с Xeon Emerald Rapids и Rialto Bridge не состоится.

Благодаря увеличенной вычислительной мощности MareNostrum 5 позволяет решать всё более сложные задачи. Например, климатические модели получат более высокое разрешение, что сделает прогнозы гораздо более точными и надёжными. Также появится возможность решать гораздо более сложные проблемы в области ИИ и Big Data. Отдельное внимание уделено поддержке европейских медицинских исследований в области создания новых лекарств, разработки вакцин и моделирования распространения вирусов.

Суперкомпьютер также станет важнейшим инструментом для материаловедения и инженерии, включая проектирование и оптимизацию самолётов, развитие более безопасной, экологически чистой и эффективной авиации. Аналогичным образом, машина будет использоваться для моделирования процессов энергогенерации, включая ядерный синтез.

В ближайшие месяцы MareNostrum 5 объединится с двумя квантовыми компьютерами: первой системой испанской суперкомпьютерной сети (RES), которая является частью инициативы Quantum Spain, и одним из первых европейских квантовых компьютеров EuroHPC JU. Оба квантовых компьютера будут одними из первых, которых запустили в Южной Европе.

Постоянный URL: http://servernews.ru/1097854
17.12.2023 [17:03], Сергей Карасёв

Intel не планирует выпускать процессоры Xeon Max в семействе Emerald Rapids

Корпорация Intel в рамках презентации серверных процессоров Xeon Emerald Rapids сообщила о том, что для этого семейства не предусмотрено создание изделий Xeon Max. Клиентам, заинтересованным в таких продуктах, придётся приобретать решения предыдущего поколения Sapphire Rapids.

Intel представила оригинальные процессоры Xeon Max в ноябре прошлого года. В состав этих чипов входит 64 Гбайт высокоскоростной памяти HBM2e с пропускной способностью около 1 Тбайт/с. Это даёт выигрыш в быстродействии при решении определённых задач.

Как сообщил Ронак Сингхал (Ronak Singhal), старший научный сотрудник Intel и главный архитектор чипов Xeon, при создании Xeon Max корпорация ориентировалась прежде всего на сегмент НРС. Однако в настоящее время наблюдается сдвиг в сторону других задач, таких как работа с большими языковыми моделями (LLM). Поэтому от выпуска таких изделий в семействе Emerald Rapids было решено отказаться.

 Источник изображения: Intel

Источник изображения: Intel

«У нас по-прежнему есть заказчики, которые либо развёртывают, либо изучают возможности внедрения существующих процессоров Xeon Max», — сказал Ронак Сингхал. Сейчас компания готовит чипы Xeon Granite Rapids, которые должны выйти в наступающем году. Не исключено, что эти изделия получат память HBM. В 2025-м дебютирует чип Falcon Shores, сочетающий GPU и ИИ-сопроцессор. Он объединит архитектуры Habana и Xe в единое решение с памятью HBM3 и полной поддержкой CXL.

Постоянный URL: http://servernews.ru/1097585
14.11.2023 [18:50], Сергей Карасёв

Запущены суперкомпьютеры Dawn, SuperMUC-NG и Crossroads на базе Intel Data Center GPU Max и Xeon Sapphire Rapids

Корпорация Intel на конференции по высокопроизводительным вычислениям SC23 рассказала о новых суперкомпьютерах, попавших в ноябрьский рейтинг TOP500. Речь, в частности, идёт о вычислительных комплексах Dawn (Phase 1), SuperMUC-NG (Phase 2) и Crossroads.

Система Dawn, созданная специалистами Intel, Dell Technologies и Кембриджского университета, рассчитана на задачи ИИ. В основу положены серверы Dell PowerEdge XE9640 с жидкостным охлаждением. В общей сложности задействованы 256 узлов, в состав которых входят 512 процессоров Intel Xeon Sapphire Rapids — Platinum 8468 с 48 ядрами (96 потоков; 2,1–3,8 ГГц; 350 Вт).

Суперкомпьютер Dawn использует 1024 ускорителя Intel Data Center GPU Max 1550. Общий объём памяти DDR составляет 256 Тбайт, а её пропускная способность достигает 157 Тбайт/с. Кроме того, задействовано 128 Тбайт памяти НВМ с пропускной способностью до 3,3 Пбайт/с.

Подсистема хранения данных вместимостью 3 Пбайт обеспечивает скорость до 2 Тбайт/с. Агрегированная пропускная способность сети — до 25,6 Тбайт/с. Заявленная производительность достигает 19,46 Пфлопс (FP64). Это соответствует 41-му месту в ноябрьском рейтинге ТОР500. Пиковое быстродействие — 53,85 Пфлопс. Система установлена в лаборатории Cambridge Open Zettascale Lab (Великобритания).

 Источник изображения: Intel

Источник изображения: Intel

В свою очередь, комплекс SuperMUC-NG (Phase 2) смонтирован в Суперкомпьютерном центре Лейбница Баварской академии наук (Германия). Этот суперкомпьютер базируется на серверах Lenovo ThinkSystem SD650-I V3 Neptune DWC с прямым жидкостным охлаждением. Установлены 240 узлов, в состав которых входят в общей сложности 480 процессоров Intel Xeon Platinum 8480L (56 ядер; 112 потоков; 2,0–3,8 ГГц; 350 Вт) и 960 ускорителей Data Center GPU Max.

 Источник изображения: Intel

Источник изображения: Intel

Комплекс SuperMUC-NG (Phase 2) оперирует 123 Тбайт памяти DDR с пропускной способностью до 147 Тбайт/с. Память НВМ такого же объёма обеспечивает пропускную способность до 3,1 Пбайт/с. Применено хранилище на 1 Пбайт со скоростью 750 Гбайт/с. Пропускная способность сети — до 12 Тбайт/с. Суперкомпьютер обладает производительностью 17,19 Пфлопс (FP64): в списке ТОР500 система располагается на 52-й строке.

Наконец, суперкомпьютер Crossroads размещён в Лос-Аламосской национальной лаборатории (LANL) Министерства энергетики США. Система обладает производительностью 30,03 Пфлопс (FP64). Задействованы 2600 чипов Intel Xeon CPU Max 9480 с 56 ядрами и памятью HBM. Система находится на 24-м месте рейтинга ТОР500. Всего же в новой редакци рейтинга есть 20 новых машин на базе Sapphire Rapids, из которых пять используют Max-версию процессоров, а также четыре системы с ускорителями Data Center GPU Max.

Постоянный URL: http://servernews.ru/1095922
14.11.2023 [03:20], Алексей Степин

Intel показала результаты тестов ускорителя Max 1550 и рассказала о будущих чипах Gaudi3 и Falcon Shores

В рамках SC23 корпорация Intel продемонстрировала ряд любопытных слайдов. На них присутствуют результаты тестирования ускорителя Max 1550 с архитектурой Xe, а также планы относительно следующего поколения ИИ-ускорителей Gaudi.

 Изображение: Intel

Изображение: Intel

При этом компания применила иной подход, нежели обычно — вместо демонстрации результатов, полученных в стенах самой Intel, слово было предоставлено Аргоннской национальной лаборатории Министерства энергетики США, где летом этого года было завершён монтаж суперкомпьютера экза-класса Aurora, занимающего нынче второе место в TOP500.

В этом HPC-кластере применены OAM-модули Max 1550 (Ponte Vecchio) с теплопакетом 600 Вт. Они содержат в своём составе 128 ядер Xe и 128 Гбайт памяти HBM2E. Интерфейс Xe Link позволяет общаться напрямую восьми таким модулям, что обеспечивает более эффективную масштабируемость.

 Источник изображений здесь и далее: Intel via ServeTheHome

Источник изображений здесь и далее: Intel via ServeTheHome

Хотя настройка вычислительного комплекса Aurora ещё продолжается, уже имеются данные о производительности Max 1550 в сравнении с AMD Instinct MI250 и NVIDIA A100. В тесте физики высоких частиц, использующих сочетание PyTorch+Horovod (точность вычислений FP32), ускорители Intel уверенно заняли первое место, а также показали 83% эффективность масштабирования на 512 узлах Aurora.

В тесте, симулирующем поведение комплекса кремниевых наночастиц, ускорители Max 1550, также оказались первыми как в абсолютном выражении, так и в пересчёте на 128-узловой тест в сравнении с системами Polaris (четыре A100 на узел) и Frontier (четыре MI250 на узел). Написанный с использованием Fortran и OpenMP код доказал работоспособность и при масштабировании до более чем 500 вычислительных узлов Aurora.

 Источник изображения: Intel via Phoronix

Источник изображения: Intel via Phoronix

В целом, ускорители Intel Max 1550 демонстрируют хорошие результаты и не уступают NVIDIA H100: в некоторых задачах их относительная эффективность составляет не менее 0,82, но в большинстве других тестов этот показатель варьируется от 1,0 до 3,76. Очевидно, что у H100 появился достойный соперник, который, к тому же, имеет меньшую стоимость и большую доступность. Но сама NVIDIA уже представила чипы (G)H200, а AMD готовит Instinct MI300.

Системы на базе Intel Max доступны в различном виде: как в облаке Intel Developer Cloud, так и в составе OEM-решений. Supermicro предлагает сервер с восемью модулями OAM, а Dell и Lenovo — решения с четырьями ускорителями в этом же формате. PCIe-вариант Max 1100 доступен от вышеуказанных производителей, а также у HPE.

Помимо ускорителей Max, Intel привела и новые данные о производительности ИИ-сопроцессоров Gaudi2. Компания продолжает активно совершенствовать и оптимизировать программную экосистему Gaudi. В результате, в инференс-системе на базе модели GPT-J-6B результаты ускорителей Gaudi2 уже сопоставимы с NVIDIA H100 (SXM 80 Гбайт), а A100 существенно уступает как Gaudi2, так и Max 1550.

Но самое интересное — это сведения о планах относительно следующего поколения Gaudi. Теперь известно, что Gaudi3 будет производиться с использованием 5-нм техпроцесса. Новый чип будет в четыре раза быстрее в вычислениях BF16, а также получит вдвое более мощную подсистему памяти и в 1,5 раза больше памяти HBM. Увидеть свет он должен в 2024 году.

Заодно компания напомнила, что процессоры Xeon Emerald Rapids будут представлены ровно через месяц, а Granite Rapids появятся в 2024 году. В 2025 появится чип Falcon Shores, который теперь должен по задумке Intel сочетать в себе GPU и ИИ-сопроцессор. Он объединит архитектуры Habana и Xe в единое решение с тайловой компоновкой, памятью HBM3 и полной поддержкой CXL.

 Источник изображения: Intel via Phoronix

Источник изображения: Intel via Phoronix

Следует отметить, что такая унификация вполне реальна: Intel весьма активно развивает универсальный, гибкий и открытый стек технологий в рамках проекта oneAPI. В него входят все необходимые инструменты — от компиляторов и системных библиотек до средств интеграции с популярными движками аналитики данных, моделями и библиотеками искусственного интеллекта.

Постоянный URL: http://servernews.ru/1095910
03.11.2023 [01:01], Владимир Мироненко

В Великобритании появится ИИ-суперкомпьютер Dawn, разработанный Dell, Intel и Кембриджским университетом

Dell Technologies, Intel и Кембриджский университет объявили о создании в Великобритании разработанного совместными усилиями суперкомпьютера Dawn. Запуск будет осуществляться в два этапа. Первый будет выполнен в течение двух месяцев, то есть до конца года. На втором этапе, который буде завершён в 2024 году, производительность Dawn будет увеличена в десять раз, будет завершена в следующем году. Подробные характеристики Dawn будут объявлены на SC23 в этом месяце.

Суперкомпьютер Dawn установлен в лаборатории Cambridge Open Zettascale Lab. Как сообщает Dell, это будет самое мощное суперкомпьютерное ИИ-облако на базе OpenStack, разработанное совместно с британской SME StackHPC. Машина использует серверы Dell PowerEdge XE9640 с процессорами Sapphire Rapids и ускорителями Max. Всего задействовано более 1 тыс. ускорителей.

Платформа Scientific OpenStack с открытым исходным кодом обеспечит полностью оптимизированную для ИИ и моделирования облачную HPC-среду. Отмечена и поддержка Intel oneAPI для гетерогенных вычислений. Предполагается, что суперкомпьютер будет использоваться для выполнения сложных вычислительных задач в области академических и промышленных исследований, здравоохранения, инжиниринга и моделирования климата.

 Изображение: Intel

Изображение: Intel

В следующем году в Великобритании также будет построен суперкомпьютер Isambard-AI, который вместе с Dawn будет включён в проект AI Research Resource (AIRR), созданный британским правительством для оказания помощи национальным разработчикам ИИ. Isambard-AI и Isambard-3 будут построены HPE с использованием Arm-чипов NVIDIA Grace и Grace Hopper. При этом и Dell, и HPE одновременно заявили, что именно их детища будут самыми быстрыми ИИ-суперкомпьютерами в стране.

Постоянный URL: http://servernews.ru/1095415
01.09.2023 [14:05], Сергей Карасёв

В Лос-Аламосской лаборатории запущен суперкомпьютер Crossroads на базе Intel Xeon Sapphire Rapids

Лос-Аламосская национальная лаборатория (LANL) Министерства энергетики США сообщила о запуске суперкомпьютера Crossroads — первого в мире крупного вычислительного комплекса, полагающегося исключительно на процессоры Intel Xeon Sapphire Rapids, в том числе с HBM-памятью. Система будет применяться для решения сложных научных задач, связанных с ядерным арсеналом США.

О создании 165-Пфлопс машины впервые было объявлено в конце 2020 года, а первая фаза установки Crossroads была завершена в октябре 2022 года. Тогда говорилось, что по FP64-производительности новый суперкомпьютер превзойдёт существующую систему LANL Trinity в четыре раза. Отличительной чертой машины является то, что она полагается исключительно на CPU Intel.

Как теперь сообщается, в июне оставшееся оборудование, включая компоненты системы жидкостного охлаждения, было доставлено в Стратегический вычислительный комплекс (Strategic Computing Complex), где размещены HPC-системы LANL. После этого специалисты HPE произвели монтаж узлов и обеспечили подключение Crossroads к сети лаборатории. В настоящее время проводится первоначальная диагностика систем Crossroads. Суперкомпьютер станет доступен пользователям нынешней осенью.

 Источник изображения: LANL

Источник изображения: LANL

Утверждается, что Crossroads обеспечит в четыре–восемь раз более высокую производительность по сравнению с Trinity при решении сложных задач моделирования. Но точные показатели быстродействия пока не раскрываются. Известно, что в состав суперкомпьютера входят узлы с HBM-версией Sapphire Rapids (Intel Max), а также подсистема хранения данных типа All-Flash.

Постоянный URL: http://servernews.ru/1092387
25.07.2023 [15:09], Сергей Карасёв

TACC получит 10-Пфлопс суперкомпьютер Stampede3 на базе Intel Max и 400G Omni-Path

Техасский центр передовых вычислений (TACC) при Техасском университете в Остине (США) анонсировал НРС-комплекс Stampede3, на создание которого Национальный научный фонд (NSF) выделил $10 млн. Новый суперкомпьютер станет последователем систем Stampede (2012 год) и Stampede2 (2017 год).

В состав Stampede3 войдут 560 узлов на базе двух 56-ядерных процессоров Intel Xeon Max с 64 Гбайт встроенной памяти HBM2e. Это в сумме даст почти 63 тыс. вычислительных ядер общего назначения, а пиковая производительность составит около 4 Пфлопс (FP64). Кроме того, Stampede3 будет включать в себя 10 серверов Dell PowerEdge XE9640, содержащих 40 ускорителей Intel Max (Ponte Vecchio).

Примечательно, что новые CPU-узлы не будут оснащаться DDR5. Если памяти на ядро для некоторых задач будет не хватать, то их перенесут на другие узлы — в составе Stampede3 будут повторно задействованы 224 узла Stampede2 с двумя 40-ядерными процессорами Intel Xeon Ice Lake-SP и 256 Гбайт RAM. Более того, к ним присоединятся 1064 узла системы Stampede2, каждый из которых содержит два чипа Intel Xeon Skylake-SP с 24 ядрами и 192 Гбайт памяти.

 Источник изображения: TACC

Источник изображения: TACC

Фактически TACC теперь полностью избавилась от Xeon Phi и сохранила часть узлов от старых систем в новой машине, а некоторые пустила на создание склада запчастей. В общей сложности Stampede3 объединит 1858 вычислительных узлов, содержащих более 140 000 процессорных ядер и свыше 330 Тбайт памяти. Пиковая производительность составит почти 10 Пфлопс.

Ещё одна интересная особенность суперкомпьютера — использование новейшего 400-Гбит/с интерконнекта Omni-Path. Точнее, часть старых систем останется с 100G Omni-Path, хотя коммутаторы будут обновлены. То есть Cornelis Networks сдержала обещание, пропустив поколение OPA-200 и сразу перейдя к созданию OPA-400. Кроме того, суперкомпьютер получит полностью новое All-Flash (QLC) хранилище VAST вместимостью 13 Пбайт и скоростью доступа 450 Гбайт/с, тоже на базе серверов Dell. СХД придёт на замену Lustre-хранилищу.

Узлы Stampede3 будут поставлены осенью нынешнего года, а на полную мощность суперкомпьютер заработает в начале 2024-го. Комплекс станет частью вычислительной экосистемы ACCESS Национального научного фонда.

Постоянный URL: http://servernews.ru/1090479
09.07.2023 [18:07], Алексей Степин

AMX и HBM2e обеспечивают Intel Xeon Max серьёзное преимущество в некоторых ИИ-нагрузках

В Сети продолжают появляться новые данные о производительности процессоров Intel Xeon Max с набортной памятью HBM2e объёмом 64 Гбайт. На этот раз ресурс Phoronix опубликовал сравнительные результаты тестирования двухпроцессорных платформ Xeon Max 9480 в сравнении с решениями AMD EPYC 9004.

Не секрет, что процессоры Intel Xeon существенно уступают по максимальному количеству ядер решениям AMD EPYC уже давно — даже у обычных Sapphire Rapids их не более 60, а у Xeon Max и вовсе в максимальной конфигурации лишь 56 ядер. Однако Intel в этом поколении старается взять своё не числом, а уменьем — поддержкой новых расширений, в частности, AMX.

В новом тестировании ИИ-нагрузок, опубликованном Phoronix, приняла участие двухпроцессорная система на базе Xeon Max 9480 в различных режимах (только с HBM, без HBM или с HBM в режиме кеширования), а также две двухпроцессорные системы AMD на базе EPYC 9554 (128 ядер) и EPYC 9654 (192 ядра). В качестве бенчмарков были выбраны фреймворки OpenVINO (оптимизирован для AMX) и ONNX (без глубокой оптимизации).

 Источник здесь и далее: Phoronix

Источник здесь и далее: Phoronix

В ряде тестов OpenVINO наивысший результат продемонстрирован платформой Xeon Max в режиме HBM Only, несмотря на огромное отставание по количеству ядер. И худший же результат принадлежит тоже Xeon Max, но при отключении HBM и переходу к AVX512 FP16 без использования AMX.

Иногда AMD удаётся взять реванш благодаря количеству ядер, причём отключение HBM2e не всегда спасает «красных» — с помощью AMX «синие» продолжают довольно уверенно лидировать во многих тестах. Тестирование в ONNX Runtime 1.14 на базе языковой модели GPT-2 также показало, что Xeon Max опережают EPYC Genoa — но серьёзный выигрыш достигается только при использовании HBM.

 Даже без HBM поддержка AMX помогает Xeon Max показать достойный результат

Даже без HBM поддержка AMX помогает Xeon Max показать достойный результат

Подход Intel демонстрирует отличные результаты: в ряде случаев переход от AVX512 к AMX позволяет поднять производительность в 2,5 раза. Благодаря HBM2e можно получить ещё около 25 %, а в целом прирост может достигать 3,13 раз. Впрочем, у AMD в запасе есть EPYC Genoa-X с огромным кешем 3D V-Cache, так что стоит подождать следующего раунда этой битвы.

Постоянный URL: http://servernews.ru/1089675
29.06.2023 [18:46], Алексей Степин

Опубликованы результаты тестов Intel Xeon Max: набортная HBM-память даёт заметное преимущество в ИИ- и HPC-нагрузках

Процессоры Intel серии Xeon Max отличаются от своих обычных, «не максимальных» собратьев наличием интегрированной памяти HBM2e объёмом 64 Гбайт. Что же это даёт им на практике? Этот вопрос исследовал ресурс Phoronix — им в руки новейшие двухсокетные системы Supermicro Hyper SuperServer SYS-221H-TNR с чипами Xeon Max 9468 и 9480.

Напомним, Intel Xeon Max отличается от своих обычных собратьев серии Sapphire Rapids наличием 64 Гбайт HBM2e на борту, причём объём одинаков для всех моделей, хотя количество ядер может варьироваться от 32 до 56. Процессоры Xeon Max были протестированы в трёх режимах: только с памятью HBM (без DDR5), с HBM в качестве кеша для 512 Гбайт DDR5, а также в «плоском» режиме, но без отдачи HBM какому-либо процессу, то есть фактически только с DDR5.

 Изображение: Intel

Изображение: Intel

Тесты показали, что два первых режима действительно могут обеспечить преимущество в некоторых сценариях нагрузки. Результаты получились вполне закономерными: там, где сравнительно небольшого объёма HBM2e достаточно, режим HBM Only оказывается самым быстрым из-за высокой пропускной способности и отсутствия необходимости как-то синхронизировать работу с DDR5.

 Источник: Phoronix

Источник: Phoronix

Однако режим кеширования тоже обеспечивает выигрыш, хотя в ряде нагрузок, таких как OpenFOAM, он не такой большой. В ИИ-сценариях, в частности, в тестах OpenVINO, разница меньше, а иногда отключение HBM2e и вовсе позволяет добиться чуть лучшей производительности, особенно на системе с Xeon Max 9480, где на каждое ядро приходится меньше памяти. Но в других тестах, таких как PETSc и Stress-NG, использование HBM2e может дать огромный прирост производительности, который глупо было бы игнорировать.

В целом, можно уверенно заявлять, что в среднем, прирост производительности при HBM-кешировании составляет 10–11 %, а при отказе от DDR5 к этому значению можно добавить ещё около 8 %. Также очевидно, что потребление системы в таком режиме заметно ниже, поскольку не требуется питание для модулей DDR5. В целом можно говорить о 18–20 % превосходства на широком спектре нагрузок, сообщает Phoronix.

Постоянный URL: http://servernews.ru/1089160
23.06.2023 [01:42], Владимир Мироненко

Завершён монтаж суперкомпьютера Aurora на базе Intel Max: 2 Эфлопс, более 20 Тбайт HBM2e и 220-Пбайт хранилище

Аргоннская национальная лаборатория (ANL) Министерства энергетики США и Intel объявили о завершении установки всех 10 624 блейд-серверов суперкомпьютера Aurora. Система, как сообщается, обеспечит пиковую теоретическую FP64-производительность более 2 Эфлопс, используя массив из десятков тысяч процессоров Intel Xeon Max, а также ускорителей Data Center GPU Max (Ponte Vecchio).

 Фото: Intel

Фото: Intel

Система будет использоваться для самых разных рабочих нагрузок, от моделирования ядерного синтеза до расчётов по аэродинамике и медицинских исследований. Для Intel (в отличие от AMD) это будет первая в истории машина экзафлопсного класса. Ожидается, что Aurora может возглавить ноябрьский рейтинг TOP500. Впрочем, её может опередить El Capitan или неожиданно появившаяся китайская система.

 Фото: Intel

Фото: Intel

Суперкомпьютер Aurora оснащён 21 248 CPU с более чем 1,1 млн ядер и 63 744 ускорителями, которые будут обслуживать рабочие нагрузки в области ИИ и высокопроизводительных вычислений (HPC). Процессоры Aurora имеют 1,36 Пбайт встроенной памяти HBM2E и дополнены 19,9 Пбайт DDR5, ещё 8,16 Пбайт памяти HBM2E входят в состав ускорителей Ponte Vecchio. Машина состоит из 166 стоек (66 «лезвий» в каждой) в восьми рядах. DAOS-хранилище Aurora содержит 1024 All-Flash узла общей ёмкостью 220 Пбайт и пропускной способностью 31 Тбайт/с.

 Фото: Intel

Фото: Intel

На данный момент ANL не сообщила официальные данные об энергопотреблении Aurora и её подсистемы хранения. Aurora создана на базе платформы HPE Cray Shasta с интерконнектом HPE Slingshot. Хотя блейд-серверы Aurora уже установлены, суперкомпьютеру предстоит пройти ряд приёмочных испытаний, что является обычной процедурой для таких систем. А пока он будет использоваться для обучения крупномасштабных научных моделей для генеративного ИИ.

Постоянный URL: http://servernews.ru/1088839
Система Orphus