Материалы по тегу: epyc

17.08.2023 [12:13], Сергей Карасёв

В AWS стали доступны инстансы EC2 M7a общего назначения на базе AMD EPYC Genoa

В ноябре 2021 года облачная площадка Amazon Web Services (AWS) запустила инстансы EC2 M6a с процессорами AMD EPYC Milan, работающими на частоте до 3,6 ГГц. А теперь объявлено о доступности инстансов общего назначения EC2 M7a с чипами AMD EPYC Genoa.

Новые инстансы используют процессоры с частотой до 3,7 ГГц. Утверждается, что по сравнению с EC2 M6a общая производительность увеличилась приблизительно на 50 %. Это даёт возможность «быстрее обрабатывать данные, консолидировать рабочие нагрузки и снизить стоимость владения».

 Источник изображения: AWS

Источник изображения: AWS

Заказчикам доступны от 1 до 192 vCPU, а объём оперативной памяти DDR5 составляет 4 Гбайт в расчёте на vCPU. Заявленная пропускная способность сетевого подключения варьируется от 12,5 Гбит/с до 50 Гбит/с, пропускная способность EBS — от 10 до 40 Гбит/с. Инстансы построены на базе AWS Nitro.

Говорится о сертификации SAP. По заявлениям AWS, инстансы EC2 M7a отлично подходят для таких задач, как финансовые приложения, имитационное моделирование, игры, серверы приложений, хранилища данных среднего размера, среды разработки приложений и пр. Инстансы уже доступны в регионах US East (Огайо), US East (Северная Вирджиния), US West (Орегон) и EU (Ирландия).

Постоянный URL: http://servernews.ru/1091607
02.08.2023 [09:59], Сергей Карасёв

Слабый спрос на EPYC уронил квартальную выручку AMD в сегменте ЦОД на 11 %

Компания AMD отрапортовала о работе во второй четверти 2023 финансового года, закрытой 1 июля. Выручка за трёхмесячный период составила $5,36 млрд против $6,55 млрд годом ранее. Таким образом, зафиксировано падение приблизительно на 18 %. Впрочем, результат оказался выше прогнозов сторонних аналитиков.

Во II квартале 2023 года AMD показала чистую прибыль в размере $27 млн в соответствии с общепризнанными принципами бухгалтерского учёта (GAAP). Это на 94 % меньше прошлогоднего показателя, когда компания заработала $447 млн. Прибыль в пересчёте на одну ценную бумагу за год сократилась с $0,27 до $0,02.

 Источник изображения: AMD

Источник изображения: AMD

В сегменте дата-центров квартальная выручка оказалась на уровне $1,3 млрд, что на 11 % меньше прошлогоднего результата, равного $1,5 млрд. В AMD это связывают со слабым спросом на процессоры EPYC в корпоративном сегменте. Компания уточнила, что заметно упал спрос на EPYC третьего поколения, но выручка от реализации процессоров четвёртого поколения последовательно почти удвоилась.

Компания отмечает, что на сегодняшний день в глобальном масштабе доступны более 670 облачных инстансов на чипах AMD, а до конца года их станет 900. Компания начала пробные поставки ускорителей Instinct MI300A и MI300X операторам НРС-платформ, облачным клиентам и заказчикам, развивающим ИИ-решения.

Говорится, что в течение последнего времени AWS, Alibaba, Microsoft Azure и OCI запустили инстансы на основе процессоров EPYC Genoa. Решения AMD применяются в 121 суперкомпьютере из рейтинга Top500 и в 7 из 10 ведущих систем из списка Green500. А компания Cerebras представила облачный ИИ-суперкомпьютер Condor Galaxy 1, оснащенный более чем 70 тыс. процессорных ядер AMD EPYC Milan.

Постоянный URL: http://servernews.ru/1090895
24.07.2023 [15:28], Сергей Карасёв

Лиза Су: доля AMD на рынке серверных процессоров превысила 25 %

Генеральный директор AMD Лиза Су (Lisa Su) рассказала об успехах компании на рынке процессоров для серверов. По её словам, позиции AMD продолжают укрепляться, а доля превысила 25 % в общемировом объёме отгрузок серверных чипов, передаёт DigiTimes. Заявленные Результаты превзошли ожидания аналитиков DigiTimes Research, которые прогнозировали, что доля компании по итогам 2023 года превысит 20 %, а доля Arm-изделий в серверном сегменте окажется на уровне 8 %.

По оценкам Mercury Research, рыночная доля AMD в сегменте процессоров для серверов выросла с 10,7 % в начале 2022-го до 17,6 % в конце прошлого года, тогда как доля Intel упала с 89,3 % до 82,4 %. Общая доля AMD на мировом CPU-рынке (за исключением изделий IoT и кастомизированных решений) поднялась с 23,3 % в 2021 году до 29,6 % в 2022-м, в то время как доля Intel сократилась с 76,7 % до 70,4 %.

 Источник изображения: AMD

Источник изображения: AMD

AMD готовится вывести на рынок гибридное решение Instinct MI300 — самый крупный и сложный чип компании. «MI300 — самый сложный продукт в мире, мы не смогли бы сделать его без партнёрства с TSMC», — отметила госпожа Су, тем самым опровергнув слухи о том, что AMD может перенести производство ИИ-чипов исключительно на мощности Samsung Electronics.

Постоянный URL: http://servernews.ru/1090450
23.07.2023 [14:57], Сергей Карасёв

ВМС США обзаведутся 17,7-Пфлопс суперкомпьютером Blueback с ускорителями AMD Instinct MI300A

Министерство обороны США (DoD) объявило о планах по развёртыванию новой суперкомпьютерной системы в рамках Программы модернизации высокопроизводительных вычислений (HPCMP). Комплекс получил название Blueback — в честь американской подводной лодки USS Blueback (SS-581).

Сообщается, что Blueback расположится в Центре суперкомпьютерных ресурсов в составе DoD (Navy DSRC), который находится в ведении Командования морской метеорологии и океанографии (CNMOC). Суперкомпьютер заменит три старых вычислительных комплекса в экосистеме HPCMP.

Основой Blueback послужит платформа HPE Cray EX4000. Архитектура включает процессоры AMD EPYC Genoa, 128 гибридных ускорителей AMD Instinct MI300A (APU) и 24 ускорителя NVIDIA L40, связанных между собой 200G-интерконнектом Cray Slingshot-11. В состав комплекса войдёт Lustre-хранилище Cray ClusterStor E1000 вместимостью 20 Пбайт, включая 2 Пбайт пространства на базе SSD NVMe. Объём системной памяти — 538 Тбайт. Общее количество вычислительных ядер будет достигать 256 512.

 Источник изображения: Jonathan Holloway / DoD

Источник изображения: Jonathan Holloway / DoD

Ожидается, что суперкомпьютер Blueback будет введён в эксплуатацию в 2024 году. Кстати, совсем недавно центр Navy DSRC получил НРС-систему Nautilus производительностью 8,2 Пфлопс. Она содержит 176 128 ядер и 382 Тбайт памяти.

Постоянный URL: http://servernews.ru/1090412
19.07.2023 [22:03], Илья Коваль

Ядер много не бывает: первые тесты AMD EPYC Genoa-X и Bergamo показали почти безоговорочную победу над Intel Xeon Sapphire Rapids и Xeon Max

В Сети появились первые тесты процессоров AMD EPYC Genoa-X и Bergamo, которые были представлены в конце мая. Первый из них является вариантом Genoa с 3D V-Cache объёмом 768 Мбайт в максимальной конфигурации с 96 ядрами, что в сумме даёт 1152 Мбайт L3-кеша на процессор. Второй же предлагает до 128 ядер Zen4c с пониженной частотой и урезанным кешем и оптимизирован для нужд гиперскейлеров.

Так, согласно тестам Phoronix, в HPC- и ИИ-бенчмарках, на которые Genoa-X и ориентирован, 9684X в стандартном режиме в среднем обгоняет и обычные Genoa 9654 с «открученными» лимитами (cTDP 400 Вт), и Milan-X (7773X), и Xeon Sapphire Rapids (8490H), и Xeon Max (9480). Отдельно отмечается прирост производительности в сравнении с Milan-X, при этом разница между чипами составляет менее двух лет.

 Источник: Phoronix

Источник: Phoronix

Что касается Intel Xeon Max, которые благодаря набортной памяти HBM2e объёмом 64 Гбайт как раз должны составлять конкуренцию Genoa-X в «тяжёлых» задачах, из-за значительного меньшего количества ядер тягаться с EPYC могут далеко не всегда и показывают хорошие результаты в режиме HBM-only (без системной DDR5). Но это касается только задач, которым хватает набортной памяти, и отдельных (пока редких) нагрузок, которые заранее оптимизированы для актуальной платформы Intel и, например, умеют задействовать инструкции AMX для ИИ-вычислений.

 Источник: Phoronix

Источник: Phoronix

В этих же тестах был ещё один участник — EPYC 9754 (Bergamo). В нетипичных для него нагрузках он всё равно показал достойный результат, всё же 128 ядер — это 128 ядер. В ещё одном тестировании Phoronix он обогнал всех прочих участников, показав прирост на уровне 20 % в сравнении со старшим Genoa(-X) в нагрузках, которые хорошо распараллеливаются. При этом он оказался энергоэффективнее и своих собратьев с ядрами Zen4, и Intel Xeon.

Так что этот чип действительно будет интересен облачным провайдерам, но не только им. Это отлично решение для рендера и некоторых расчётных нагрузок. Intel сейчас не в состоянии противопоставить что-либо Bergamo, но гораздо интереснее увидеть сравнение новинок с AmpereOne. Пока что ServeTheHome отмечает значительное превосходство Bergamo над процессорами Ampere Altra Max, которые тоже имеют 128 ядер, но Arm и без SMT.

Постоянный URL: http://servernews.ru/1090249
14.11.2022 [00:00], Игорь Осколков

Игра по новым правилам: AMD представила Genoa, четвёртое поколение серверных процессоров EPYC

Всего за десять лет AMD совершила почти невозможное — практически полностью потеряла серверный рынок, а теперь не просто успешно его отвоёвывает, но и предлагает комплексное портфолио решений. Анонс четвёртого поколения процессоров EPYC под кодовым именем Genoa — это не технологическая победа над Intel, поскольку AMD даже не думала бороться с Sapphire Rapids и уж тем более с Ice Lake-SP, а ориентировалась на Granite Rapids. Но годовая задержка с выпуском Sapphire Rapids позволила AMD не только в более спокойном темпе доделывать чипы Genoa, которые вышли на полгода позже, чем задумывалось ранее, но и поработать с разработчиками и заказчиками. Компании удалось вернуть их доверие — победа в умах гораздо важнее, чем просто технологическое превосходство. А оно неоспоримо.

 Источник: AMD

Источник: AMD

EPYC Genoa заключены в корпус 72×75 мм, содержат до 90 млрд транзисторов и состоят из 13 чиплетов: 12 CCD, изготовленных по 5-нм техпроцессу TSMC плюс один, изрядно увеличившийся в размерах, IO-блок, сделанный там же, но уже по 6-нм нормам. Отказ от услуг GlobalFoundries, которая так и не смогла освоить тонкие техпроцессы, случился как нельзя кстати, поскольку IO-блок становится крайне важным компонентом при таком количестве ядер, которые необходимо вовремя накормить данными. И Genoa интересны в первую очередь с точки зрения полноты и разнообразия IO, а не рекордного количества ядер.

IO-чиплет оснащён новыми SerDes-блоками, которые обслуживают и PCIe 5.0, и Infinity Fabric 3.0 (IF/GMI3). Формально каждому чипу полагается 128 линий PCIe 5.0, но реальная конфигурация чуть сложнее. Во-первых, у каждого чипа есть ещё восемь (2 x4) бонусных линий PCIe 3.0 для подключения нетребовательных устройств и обвязки, но в 2S-конфигурации таких линий будет только 12. Во-вторых, для 2S можно задействовать три (3Link) или четыре (4Link) IF-подключения, получив 160 или 128 свободных линий PCIe 5.0 соответственно.

 Изображения: AMD (via SemiAnalysis)

Изображения: AMD (via SemiAnalysis)

В-третьих, каждый root-комплекс x16 может быть поделён между девятью устройствами (вплоть до x8 + восемь x1). Часть линий можно отдать на SATA (до 32 шт.), хотя это довольно расточительно. Но главное не это! Из 128 линий 64 поддерживают в полном объёме CXL 1.1 и частично CXL 2.0 Type 3, причём возможна бифуркация вплоть до x4. Ради такой поддержки CXL выход Genoa задержался на два квартала, но оно того определённо стоило — к процессору можно подключать RAM-экспандеры. И решения SK Hynix уже валидированы для новой платформы.

CXL-память будет выглядеть как NUMA-узел (без CPU) — задержки обещаны примерно те же, что и при обращении к памяти в соседнем сокете, а пропускная способность одного CXL-подключения x16 почти эквивалентна двум каналам DDR5. При этом для CXL-памяти прозрачно поддерживаются всё те же функции безопасности, включая SME/SEV/SNP (теперь ключей стало аж 1006, а алгоритм обновлён до 256-бит AES-XTS). Отдельно для CXL-памяти внедрена поддержка SMKE (secure multi-key encryption), с помощью которой гипервизор может оставлять зашифрованными выбранные области SCM-устройств (до 64 ключей) между перезагрузками.

 Изображения: AMD (via SemiAnalysis)

Изображения: AMD (via SemiAnalysis)

Такая гибкость при работе с памятью крайне важна для тех же гиперскейлеров. DDR5 по сравнению с DDR4 вчетверо плотнее, вполовину быстрее и… пока значительно дороже. И здесь AMD снова пошла им навстречу, добавив поддержку 72-бит памяти, а не только стандартной 80-бит, сохранив и расширив механизмы коррекции ошибок. 10-% разница в количестве DRAM-чипов при сохранении той же ёмкости на масштабах в десятки и сотни тысяч серверов выливается в круглую сумму. Кроме того, в Genoa сглажена разница в производительности между одно- и двухранговыми модулями с 25 % (в случае Milan) до 4,5 %.

Что примечательно, AMD удалось сохранить сопоставимый уровень задержки обращений к памяти между поколениями CPU: 118 нс против 108 нс, из которых только 3 нс приходится на IO-блок, а 10 нс уже на саму память. Теоретическая пиковая пропускная способность памяти составляет 460,8 Гбайт/с на сокет. Однако тут есть нюансы. Genoa имеет 12 каналов памяти DDR5-4800, которые способны вместить до 6 Тбайт RAM. Однако сейчас фактически доступен только режим 1DPC, а вот 2DPC, судя по всему, появится только в следующем году. Genoa поддерживает модули (3DS) RDIMM и предлагает чередование с шагом в 2, 4, 6, 8, 10 или 12 каналов.

 Изображения: AMD (via SemiAnalysis)

Изображения: AMD (via SemiAnalysis)

Каждый чип можно разбить на два (NPS2) или четыре (NPS4) равных NUMA-домена, а при большом желании и «прибить» L3-кеш к ядрам в том же CCD, получив уже 12 доменов. Но, по словам AMD, это нужно лишь в редких случаях, чтобы выжать ещё несколько процентов производительности. И это снова возвращает нас к особенностям IO-блока. Дело в том, что у каждого CCD есть сразу два GMI-порта. Но в конфигурациях с 8 и 12 CCD используется только один из них, а вот в случае 4 CCD — оба. Интересно, задействует ли AMD «лишние» порты для подключения других блоков.

Впрочем, AMD, имея столь гибкие возможности конфигурации моделей, ограничилась относительно скромным начальным набором CPU, которые включает всего 18 моделей с числом ядер от 16 до 96, из которых четыре имеют индекс P (односокетные, чуть дешевле) и четыре — F (выше частота, больше объём L3-кеша). Модельный ряд условно делится на три группы: повышенная производительность на ядро (F-серия), повышенная плотность ядер и повышенный показатель TCO (с относительно малым количеством ядер).

 Источник: AMD (via ServeTheHome)

Источник: AMD (via ServeTheHome)

На первый взгляд может показаться, что и цены на новинки заметно выросли, но это не совсем так. Например, у топовых моделей условная стоимость одного ядра (а их стала в полтора раза больше) так и крутится около «магического» значения в $123. Но с учётом возросшей производительности на ценовую политику AMD просто грех жаловаться. Прирост IPC между Zen3 и Zen4 составил 14 %, в том числе благодаря увеличению L2-кеша до 1 Мбайт на ядро (L1 и L3 остались без изменений), но не только. Есть и другие улучшения. Например, обновлённый контроллер прерываний AVIC позволяет практически полностью насытить не только 200G, но 400G NIC.

С учётом чуть возросших частот и просто катастрофической разнице в количестве ядер топовый вариант Genoa не только значительно обгоняет Milan, но и в два-три раза быстрее старшего Ice Lake-SP. Дело ещё в и том, что Genoa обзавелись поддержкой AVX-512, в том числе инструкций VNNI (DL Boost), которыми так долго хвасталась Intel, а также BF16. Но реализация сделана иначе. У Intel используются «полноценные» 512-бит блоки, дорогие с точки зрения энергопотребления и затрат кремния. AMD же пошла по старому пути, используя 256-бит операции и несколько циклов, что позволяет не так агрессивно сбрасывать частоты.

 Изображения: AMD (via SemiAnalysis)

Изображения: AMD (via SemiAnalysis)

Переход на новый техпроцесс, а также обновлённые подсистемы мониторинга и управления питанием позволили сохранить TDP в разумных пределах от 200 Вт до 360 Вт (cTDP до 400 Вт), что всё ещё позволяет обойтись воздушным охлаждением — всего + 80 Вт для старших процессоров при полуторакратном росте числа ядер. Таким образом, AMD имеет полное право заявлять, что Genoa лидирует по производительности, плотности размещения вычислительных мощностей, энергоэффективности и, в целом, по уровню TCO.

У Intel же пока преимущество в более высокой доступности продукции в сложившейся геополитической обстановке. Отдельный вопрос, как AMD будет распределять имеющиеся мощности по выпуску Genoa между гиперскейлерами, корпоративным сектором и HPC-сегментом. Впрочем, компания в любом случае меняет рынок, иногда неожиданным образом. В частности, VMware, которая когда-то из-за EPYC изменила политику лицензирования, была вынуждена дополнительно оптимизировать свои продукты для Genoa. В конце концов, где вы раньше видели 2S-платформу со 192 ядрами и 384 потоками?

Постоянный URL: http://servernews.ru/1077288
10.06.2022 [03:30], Игорь Осколков

AMD анонсировала серверные процессоры EPYC Genoa-X, Siena и Turin

На прошедшем этим вечером отчётном мероприятии Financial Analysts Day 2022 компания AMD поделилась планами по дальнейшему развитию серверных процессоров EPYC. Речь шла как об уже анонсированных продуктах, так и о совершенно новых, предназначенных для неосвоенных ранее компанией сегментов.

Наиболее значимым, хотя и наименее детальным, стал официальный анонс пятого поколения AMD EPYC под кодовым именем Turin (EPYC 7005), которое должно появиться до конца 2024 года. Они будут основаны на существенно переработанной архитектуре Zen 5 и изготавливаться по смешанному 3- и 4-нм техпроцессу. Обещано три разновидности кристаллов: обычные, с 3D V-Cache и «облачные» (Zen 5c), оптимизированные для повышения плотности размещения. Важно тут то, что таким образом сохранится преемственность между поколениями, что определённо порадует заказчиков.

 Изображения: AMD (via Tom's Hardware)

Изображения: AMD (via Tom's Hardware)

Но в ближайшее время нас ждёт выход AMD EPYC Genoa, который должен состояться в IV квартале текущего года. Эти 5-нм процессоры получат до 96 ядер Zen 4, 12 каналов DDR5, поддержку PCIe 5.0 и CXL. Причём сейчас уже явно говорится о возможности расширения системной памяти с помощью CXL. Переход на новый техпроцесс и увеличившееся в 1,5 раза количество ядер дали прирост производительности до +75% (в пример приводится тест Java SPECjbb).

Для Genoa потребуется новый сокет SP5 (LGA6096). Он же будет готов принять ещё два варианта процессоров. Первый — это новенький Genoa-X, по названию которого легко догадаться, что это тот же Genoa (тоже до 96 ядер), снабжённый расширенным L3-кешем 3D V-Cache (от 1 Гбайт и более). Как и Milan-X, он будет ориентирован на специфический класс нагрузок, которые выигрывают от увеличения доступного объёма кеша. Это, например, расчётные задачи и СУБД.

Genoa-X появятся в 2023 году. Тогда же стоит ждать и особую серию Bergamo. Эти процессоры, как и было обещано ранее, получат до 128 ядер (и 256 потоков), сохранив совместимость с сокетом SP5. Основаны они будут на 5-нм ядрах Zen 4c, который чем-то напоминают E-ядра в исполнении Intel. Однако набор команд у Zen 4c будет одинаков с Zen 4. Деталей устройства c-ядер AMD снова не раскрыла, но можно предположить, что у них переработана иерархия кешей. Предназначены они для гиперскейлеров, которым важна плотность размещения ресурсов, а не только производительность

В 2023 году появятся и «малые» EPYC’и под кодовым названием Siena. Они оптимизированы с точки зрения энергоэффективности и предлагают до 64 ядер Zen 4. Siena ориентированы на периферийные вычисления и телеком-сегмент. Подробностей о них пока тоже мало. Не исключено, что мы увидим и гибриды наподобие Ice Lake-D, включающие интегрированные «умные» сетевые контроллеры.

Существенным для всех новинок станет использование архитектуры Zen 4 (4 и 5 нм), которая, помимо ожидаемого прироста производительности, получит новые возможности. Среди них — поддержка AVX-512 (возможно, не самого полного набора) и новых инструкций для ИИ-нагрузок, которыми Intel хвасталась в течение нескольких лет. Но что ещё более важно, Zen 4 получат четвёртое поколение интерконнекта Infinity Architecture, который позволит более плотно связать различные чиплеты, причём и на уровне «кремния» (2.5D- и 3D-упаковка).

А это открывает путь к эффективной компоновке различных функциональных модулей с поддержкой когерентности на уровне всего чипа — AMD подтвердила возможность интеграции FPGA Xilinx и IP-блоков сторонних компаний. Новый интерконнект также совместим с CXL 2.0, что важно для работы с памятью, а будущие версии получат поддержку CXL 3.0 и UCIE. Именно четвёртое поколение Infinity позволило AMD создать свои первые серверные APU Instinct MI300.

Постоянный URL: http://servernews.ru/1067684
30.05.2022 [10:00], Игорь Осколков

Июньский TOP500: есть экзафлопс!

59-я редакция TOP500, публичного рейтинга самых производительных суперкомпьютеров мира, стала наиболее знаменательной за последние 14 лет, поскольку официально был преодолён экзафлопсный барьер. Путь от петафлопса оказался долгим — первой петафлопсной системой стал суперкомпьютер IBM Roadrunner, и произошло это аж в 2008 году. Но минимальным порогом для попадания в TOP500 эта отметка стала только в 2019 году.

Как и было обещано, официально и публично отметку в 1 Эфлопс в бенчмарке HPL на FP64-вычислениях первым преодолел суперкомпьютер Frontier — его устоявшаяся производительность составила 1,102 Эфлопс при теоретическом пике в 1,686 Эфлопс. Система на платформе HPE Cray EX235a использует оптимизированные 64-ядерные процессоры AMD EPYC Milan (2 ГГц), ускорители AMD Instinct MI250X и фирменный интерконнект Slingshot 11-го поколения. Система имеет суммарно 8 730 112 ядер, потребляет 21,1 МВт и выдаёт 52,23 Гфлопс/Вт, что делает её второй по энергоэффективности в мире.

 Суперкомпьютер Frontier (Фото: AMD)

Суперкомпьютер Frontier (Фото: AMD)

Впрочем, первое место в Green500 по данному показателю всё равно занимает тестовый кластер в составе всё того же Frontier: 120 832 ядра, 19,2 Пфлопс, 309 кВт, 62,68 Гфлопс/Вт. Третье и четвёртое места достались европейским машинам LUMI и Adastra, новичкам TOP500, которые по «железу» идентичны Frontier, но значительно меньше. Да и разница в Гфлопс/Вт между ними минимальна. Скопом они сместили предыдущего лидера — экзотичную японскую систему MN-3 от Preferred Networks.

Японская система Fugaku, лидер по производительности в течение двух последних лет, сместилась на второе место TOP500. Третье место у финской системы LUMI с показателем производительности 151,9 Пфлопс — обратите внимание, насколько велик разрыв в первой тройке машин. Наконец, в Топ-10 последнее место занял новичок Adastra (46,1 Пфлопс), который расположен во Франции.

 Источник: TOP500

Источник: TOP500

В бенчмарке HPCG всё ещё лидирует Fugaku (16 Пфлопс), но, судя по всему, только потому, что для Frontier данных пока нет. Ну и потому, что результат суперкомпьютера LUMI, который почти на порядок медленнее Frontier, в HPCG составляет 1,94 Пфлопс. Наконец, в HPL-AI Frontier также отобрал первенство у Fugaku — 6,86 Эфлопс в вычислениях смешанной точности против 2 Эфлопс. В общем, у Frontier полная победа по всем фронтам, и эту машину можно назвать не только самой быстрой в мире, но первой по-настоящему экзафлопсной системой.

Если, конечно, не учитывать неофициальные результаты OceanLight и Tianhe-3 из Поднебесной, которые в TOP500 никто не заявил. Число китайских систем в нынешнем рейтинге осталось прежним (173 шт.), тогда как США «ужались» со 150 до 127 шт. Российских систем в списке всё так же семь. Лидерами по числу поставленных систем остаются Lenovo, HPE и Inspur, а по их суммарной производительности — HPE, Fujitsu и Lenovo. С другой стороны, массовых изменений и не было — в нынешнем списке всего около сорока новых систем.

 Источник: TOP500

Источник: TOP500

Однако нельзя не отметить явный прогресс AMD — да, чуть больше трёх четвертей машин из списка используют процессоры Intel, но AMD удалось за полгода отъесть около 4 %. При этом AMD EPYC Milan присутствует в более чем трёх десятках систем, а доля Intel Xeon Ice Lake-SP вдвое меньше, хотя эти процессоры появились практически одновременно. Ускорители ожидаемо стали использовать больше — они применяются в 170 системах (было 150). Подавляющее большинство приходится на решения NVIDIA разных поколений, но и для новых Instinct MI250X нашлось место в восьми машинах. Ну а в области интерконнекта Infiniband потихоньку догоняет Ethernet: 226 машин против 196 + ещё 40 с Omni-Path + редкие проприетарные решения.

Постоянный URL: http://servernews.ru/1066907
08.11.2021 [20:00], Игорь Осколков

AMD анонсировала процессоры EPYC Milan-X с 3D V-Cache: 804 Мбайт кеша и 64 ядра Zen3

AMD анонсировала серию своих серверных процессоров под кодовым названием Milan-X. Новинки являются развитием EPYC 7003 (Milan), представленных весной этого года, и рассчитаны в первую очередь на высокопроизводительные вычисления (HPC). Главным же отличием от «обычных» Milan станет резко увеличенный объём кеш-памяти, что позволило AMD снова назвать свои процессоры самими быстрыми в мире.

 AMD EPYC Milan-X с 3D V-Cache (Здесь и ниже изобржаения AMD)

AMD EPYC Milan-X с 3D V-Cache (Здесь и ниже изобржаения AMD)

Откуда берётся цифра в 804 Мбайт? Математика простая. На каждое ядро Zen3 приходится по 32 Кбайт L1-кеша для инструкций и данных + 512 Кбайт L2-кеша. На восемь ядер в CCX-комплексе приходится 32 Мбайт общего L3-кеша. И вот к ним добавляются ещё 64 Мбайт 3D V-Cache — в максимальной конфигурации на 8 CCX получается суммарно 768 Мбайт 3D V-Cache в дополнение к иерархии нижележащих кешей. Таким образом, конкретно по этому показателю побит рекорд IBM z15, хотя данный CPU ориентирован на совсем другие задачи.

А вот среди x86-64 равных Milan-X сейчас нет. Более того, по словам AMD, реализация 3D V-Cache на текущий момент является уникальной в индустрии. Дополнительный кеш имеет непосредственно подключение к CCX по медным каналами, что позволяет значительно повысить плотность упаковки и энергоэффективность, снизить задержки и улучшить температурный режим. Правда, детальные характеристики V-Cache пока не приводятся.

Что важно, новинки будут совместимы с имеющимися SP3-платформами для Milan, что упростит тестирование и валидацию — для них будет выпущено обновление BIOS. Увы, пока данные по частотам, TDP и цене компания не приводит — выпуск Milan-X запланирован на I квартал 2022 года. Но в сносках к презентации, в частности, упоминаются не только 64-ядерные Milan-X, но и 16-ядерные. Надо полагать, что такие «бутерброды» будут дороже обычных CCX, поскольку здесь цена брака будет выше.

Также заявлена совместимость с имеющимся ПО, но и с разработчиками уже ведётся активная работа по дополнительной оптимизации их решений. Наибольшую выгоду от увеличенного кеша получат нагрузки, для которых критична скорость работы с памятью и задержки доступа. Среди таковых AMD упоминает метод конечных элементов, структурный анализ, вычислительную гидродинамику и автоматизированные системы проектирования электроники (EDA). Для последних на примере Synopsys VCS рост производительности составил 66%.

Постоянный URL: http://servernews.ru/1053236
28.05.2021 [00:33], Владимир Мироненко

Perlmutter стал самым мощным ИИ-суперкомпьютером в мире: 6 тыс. NVIDIA A100 и 3,8 Эфлопс

В Национальном вычислительном центре энергетических исследований США (NERSC) Национальной лаборатории им. Лоуренса в Беркли состоялась торжественная церемония, посвящённая официальному запуску суперкомпьютера Perlmutter, также известного как NERSC-9, созданного HPE в партнёрстве с NVIDIA и AMD.

Это самый мощный в мире ИИ-суперкомпьютер, базирующийся на 6159 ускорителях NVIDIA A100 и примерно 1500 процессорах AMD EPYC Milan. Его пиковая производительность в вычислениях смешанной точности составляет 3,8 Эфлопс или почти 60 Пфлопс в FP64-вычислениях.

Perlmutter основан на платформе HPE Cray EX с прямым жидкостным охлаждением и интерконнектом Slingshot. В состав системы входят как GPU-узлы, так и узлы с процессорами. Для хранения данных используется файловая система Lustre объёмом 35 Пбайт скорость обмена данными более 5 Тбайт/с, которая развёрнута на All-Flash СХД HPE ClusterStor E1000 (тоже, к слову, на базе AMD EPYC).

 Perlmutter (Phase 1). Фото: NERSC

Perlmutter (Phase 1). Фото: NERSC

Установка Perlmutter разбита на два этапа. На сегодняшней презентации было объявлено о завершении первого (Phase 1) этапа, который начался в ноябре прошлого года. В его рамках было установлено 1,5 тыс. вычислительных узлов, каждый из которых имеет четыре ускорителя NVIDIA A100, один процессор AMD EPYC Milan и 256 Гбайт памяти. На втором этапе (Phase 2) в конце 2021 года будут добавлены 3 тыс. CPU-узлов c двумя AMD EPYC Milan и 512 Гбайт памяти., а также ещё ещё 20 узлов доступа и четыре узла с большим объёмом памяти.

 NERSC

NERSC

Также на первом этапе были развёрнуты служебные узлы, включая 20 узлов доступа пользователей, на которых можно подготавливать контейнеры с приложениями для последующего запуска на суперкомпьютере и использовать Kubernetes для оркестровки. Среда разработки будет включать NVDIA HPC SDK в дополнение к наборам компиляторов CCE (Cray Compiling Environment), GCC и LLVM для поддержки различных средств параллельного программирования, таких как MPI, OpenMP, CUDA и OpenACC для C, C ++ и Fortran.

 Фото: DESI

Фото: DESI

Сообщается, что для Perlmutter готовится более двух десятков заявок на вычисления в области астрофизики, прогнозирования изменений климата и в других сферах. Одной из задач для новой системы станет создание трёхмерной карты видимой Вселенной на основе данных от DESI (Dark Energy Spectroscopic Instrument). Ещё одно направление, для которого задействуют суперкомпьютер, посвящено материаловедению, изучению атомных взаимодействий, которые могут указать путь к созданию более эффективных батарей и биотоплива.

Постоянный URL: http://servernews.ru/1040628
Система Orphus