Материалы по тегу: mi100

09.02.2021 [14:14], Алексей Степин

Ускорители AMD Instinct MI100 помогут изучить поведение галактик

Сегодня первое место в списке самых мощных на планете суперкомпьютеров занимает японский Fugaku, построенный на базе уникальных Arm-процессоров Fujitsu A64FX. Но времена его господства, похоже, продлятся недолго — в этом году будет запущен американский Frontier, который должен будет сместить с трона нынешнего короля супервычислений: сочетание AMD EPYC и ускорителей Instinct MI100 позволит ему преодолеть экзафлопсный барьер.

Как мы уже знаем, в основе ORNL Frontier лежит платформа HPE Cray EX. Каждый стандартный шкаф новой системы может содержать до 64 вычислительных модулей с двумя платами, несущими по два процессора AMD EPYC. Дополнят их ускорители AMD Instinct MI100, а в качестве интерконнекта будет использоваться Cray Slingshot. В отличие от Fugaku, Frontier относится к гетерогенным системам.

Суперкомпьютеры такой мощности позволят проводить исследования, недоступные учёным ранее. Одной из программ, разработанных в Ок-Ридже для Frontier, является CHOLLA. Речь идёт о комплекте специализированного программного обеспечения под общим названием «Computational Hydrodynamics on Parallel Architecture» (Вычислительная гидродинамика на параллельной архитектуре). Одна из ключевых областей применения такого ПО — астрофизика.

Структурная схема вычислительных модулей в MI100

Структурная схема вычислительных модулей в MI100

Использование мощностей Frontier позволит понять, как происходят изменения в галактиках, устроенных подобно нашему Млечному Пути, причём, увидеть эти изменения — образование, эволюцию и гибель отдельных звёзд в масштабах целой галактики — можно будет в достаточно высоком разрешении. Будет смоделировано поведение 10 тыс. кубических ячеек космического пространства (примерно 50 тыс. парсек) в течение 500 миллионов лет. Это первый проект вычислительной астрономии, имеющий столь серьёзные масштабы.

Проект CHOLLA, запущенный на Frontier, позволит понять поведение загадочной тёмной материи

Проект CHOLLA, запущенный на Frontier, позволит понять поведение загадочной тёмной материи

Интересно, что изначально программное обеспечение CHOLLA было рассчитано на платформу NVIDIA CUDA, но портирование на открытый аналог в лице AMD ROCm, оказалось очень простым. Как сообщает один из учёных Окриджской лаборатории, основную работу удалось проделать всего за несколько часов, а ведь речь о ПО, которое будет моделировать жизнь целой галактики. К тому же, производительность CHOLLA удалось без всяких оптимизаций поднять в 1,4 раза по сравнению с версией, выполняемой на NVIDIA Tesla V100. Оптимизированный вариант может оказаться ещё производительнее.

Постоянный URL: http://servernews.ru/1032230
16.11.2020 [17:00], Игорь Осколков

SC20: AMD Instinct MI100 — самый быстрый PCIe-ускоритель на базе новой архитектуры CDNA

AMD Instinct MI100 — первый ускоритель на базе 7-нм архитектуры CDNA, которая в отличие от RDNA ориентирована на вычисления, а не на графику, хотя и сохраняет некоторые компоненты для рендеринга. Тем не менее, пути RDNA и CDNA окончательно разошлись, и новый ускоритель предназначен исключительно для высокопроизводительных вычислений и ИИ.

Первенец серии MI100 имеет 120 CU, которые содержат новые блоки для матричных операций, которые важны в ИИ-нагрузках. Но работают они не в ущерб «классическим» вычислениям — пиковая FP64-производительность составляет 11,5 Тфлопс, а для FP32 ровно в два раза больше, 23 Тфлопс. Эти показатели выше, чем у NVIDIA A100, и AMD настаивает, что именно такой прирост производительности нужен для запланированного достижения заветной производительности в один экзафлопс.

AMD Instinct MI100

AMD Instinct MI100

Впрочем, на другом конце спектра, в bfloat16-вычислениях, новинка от AMD проигрывает — 92,3 Тфлопс против 312 Тфлопс на Tensor Core. Прочие приведённые значения производительности для других показателей точности вычислений варьируются. Кроме того, PCIe-версия A100 в силу более низкого энергопотребления на реальных задачах может быть несколько медленнее, чем SXM-версия. А Instinct MI100, пока во всяком случае, доступна только в форм-факторе полноразмерной PCIe-карты с потреблением на уровне 300 Вт.

Карта оснащена 32 Гбайт HBM2-памяти c пропускной способностью 1,23 Тбайт/с, что несколько меньше, чем у PCIe-версии NVIDIA A100: 40 Гбайт HBM2e и 1,555 Тбайт/с соответственно. У обеих карт есть основной интерфейс PCIe 4.0 x16 (64 Гбайт/с) и дополнительная шина для прямого обмена данными между ускорителями. В случае NVIDIA это NVLink (600 Гбайт/с), который для PCIe-версии ограничен только двумя картами, а в случае AMD — это Infinity Fabric (IF).

У MI100 есть три IF-интерфейса с пропускной способностью 92 Гбайт/c (суммарно 276 Гбайт/с), что даёт возможность объединить до четырёх ускорителей, которые могут общаться друг с другом по схеме каждый-с-каждым. Причём оно не зависит от того, по какому интерфейсу, PCIe 3.0 или 4.0, сами ускорители подключены к хосту. Естественно, наиболее оптимальным вариантом для системы в целом будет связка из AMD EPYC и новых MI100.

Основной же козырь AMD, как это зачастую бывало и ранее — это стоимость новинок. Точные цены компания не приводит, но говорит о том, что по показателю производительность на доллар они 1,8-2,1 раза лучше, чем NVIDIA A100. Среди первых систем, для которых сделана валидация новых ускорителей есть Dell PowerEdge R7525, Gigabyte G482-Z54, HPE Apollo 6500 Gen10 Plus, Supermicro AS-4124GS-TNR. Избранные партнёры уже получили новые ускорители и системы на их основе для оценки производительности и адаптации ПО.

Вместе с выходом Instinct MI100 AMD представила и новый мажорный релиз ROCm 4.0, открытой программной платформы для HPC и ИИ. AMD особо отмечает рост производительности, простоту использования и готовность множества программных решений к работе с новым релизом и новым же «железом». И главное — простоту портирования кода на новую платформу, в первую очередь с NVIDIA CUDA. У некоторых разработчиков на это ушло буквально от нескольких часов до одного дня, или до нескольких недель в более сложных случаях.

Новая программно-аппаратная платформа на базе AMD EPYC, Instinct M100 и ROCm 4.0 ляжет в основу грядущих суперкомпьютеров Frontier и Pawsey. А вот будут ли новые машины с MI100 в свежем рейтинге TOP500, мы узнаем уже завтра. Конкуренцию новинкам составят новые же ускорители NVIDIA A100 с удвоенным объёмом памяти HBM2e.

Постоянный URL: http://servernews.ru/1025425
Система Orphus