Материалы по тегу: mi100
09.02.2021 [14:14], Алексей Степин
Ускорители AMD Instinct MI100 помогут изучить поведение галактикСегодня первое место в списке самых мощных на планете суперкомпьютеров занимает японский Fugaku, построенный на базе уникальных Arm-процессоров Fujitsu A64FX. Но времена его господства, похоже, продлятся недолго — в этом году будет запущен американский Frontier, который должен будет сместить с трона нынешнего короля супервычислений: сочетание AMD EPYC и ускорителей Instinct MI100 позволит ему преодолеть экзафлопсный барьер. Как мы уже знаем, в основе ORNL Frontier лежит платформа HPE Cray EX. Каждый стандартный шкаф новой системы может содержать до 64 вычислительных модулей с двумя платами, несущими по два процессора AMD EPYC. Дополнят их ускорители AMD Instinct MI100, а в качестве интерконнекта будет использоваться Cray Slingshot. В отличие от Fugaku, Frontier относится к гетерогенным системам. ![]() Суперкомпьютеры такой мощности позволят проводить исследования, недоступные учёным ранее. Одной из программ, разработанных в Ок-Ридже для Frontier, является CHOLLA. Речь идёт о комплекте специализированного программного обеспечения под общим названием «Computational Hydrodynamics on Parallel Architecture» (Вычислительная гидродинамика на параллельной архитектуре). Одна из ключевых областей применения такого ПО — астрофизика. ![]() Структурная схема вычислительных модулей в MI100 Использование мощностей Frontier позволит понять, как происходят изменения в галактиках, устроенных подобно нашему Млечному Пути, причём, увидеть эти изменения — образование, эволюцию и гибель отдельных звёзд в масштабах целой галактики — можно будет в достаточно высоком разрешении. Будет смоделировано поведение 10 тыс. кубических ячеек космического пространства (примерно 50 тыс. парсек) в течение 500 миллионов лет. Это первый проект вычислительной астрономии, имеющий столь серьёзные масштабы. ![]() Проект CHOLLA, запущенный на Frontier, позволит понять поведение загадочной тёмной материи Интересно, что изначально программное обеспечение CHOLLA было рассчитано на платформу NVIDIA CUDA, но портирование на открытый аналог в лице AMD ROCm, оказалось очень простым. Как сообщает один из учёных Окриджской лаборатории, основную работу удалось проделать всего за несколько часов, а ведь речь о ПО, которое будет моделировать жизнь целой галактики. К тому же, производительность CHOLLA удалось без всяких оптимизаций поднять в 1,4 раза по сравнению с версией, выполняемой на NVIDIA Tesla V100. Оптимизированный вариант может оказаться ещё производительнее.
16.11.2020 [17:00], Игорь Осколков
SC20: AMD Instinct MI100 — самый быстрый PCIe-ускоритель на базе новой архитектуры CDNAAMD Instinct MI100 — первый ускоритель на базе 7-нм архитектуры CDNA, которая в отличие от RDNA ориентирована на вычисления, а не на графику, хотя и сохраняет некоторые компоненты для рендеринга. Тем не менее, пути RDNA и CDNA окончательно разошлись, и новый ускоритель предназначен исключительно для высокопроизводительных вычислений и ИИ. Первенец серии MI100 имеет 120 CU, которые содержат новые блоки для матричных операций, которые важны в ИИ-нагрузках. Но работают они не в ущерб «классическим» вычислениям — пиковая FP64-производительность составляет 11,5 Тфлопс, а для FP32 ровно в два раза больше, 23 Тфлопс. Эти показатели выше, чем у NVIDIA A100, и AMD настаивает, что именно такой прирост производительности нужен для запланированного достижения заветной производительности в один экзафлопс. Впрочем, на другом конце спектра, в bfloat16-вычислениях, новинка от AMD проигрывает — 92,3 Тфлопс против 312 Тфлопс на Tensor Core. Прочие приведённые значения производительности для других показателей точности вычислений варьируются. Кроме того, PCIe-версия A100 в силу более низкого энергопотребления на реальных задачах может быть несколько медленнее, чем SXM-версия. А Instinct MI100, пока во всяком случае, доступна только в форм-факторе полноразмерной PCIe-карты с потреблением на уровне 300 Вт. Карта оснащена 32 Гбайт HBM2-памяти c пропускной способностью 1,23 Тбайт/с, что несколько меньше, чем у PCIe-версии NVIDIA A100: 40 Гбайт HBM2e и 1,555 Тбайт/с соответственно. У обеих карт есть основной интерфейс PCIe 4.0 x16 (64 Гбайт/с) и дополнительная шина для прямого обмена данными между ускорителями. В случае NVIDIA это NVLink (600 Гбайт/с), который для PCIe-версии ограничен только двумя картами, а в случае AMD — это Infinity Fabric (IF). У MI100 есть три IF-интерфейса с пропускной способностью 92 Гбайт/c (суммарно 276 Гбайт/с), что даёт возможность объединить до четырёх ускорителей, которые могут общаться друг с другом по схеме каждый-с-каждым. Причём оно не зависит от того, по какому интерфейсу, PCIe 3.0 или 4.0, сами ускорители подключены к хосту. Естественно, наиболее оптимальным вариантом для системы в целом будет связка из AMD EPYC и новых MI100. Основной же козырь AMD, как это зачастую бывало и ранее — это стоимость новинок. Точные цены компания не приводит, но говорит о том, что по показателю производительность на доллар они 1,8-2,1 раза лучше, чем NVIDIA A100. Среди первых систем, для которых сделана валидация новых ускорителей есть Dell PowerEdge R7525, Gigabyte G482-Z54, HPE Apollo 6500 Gen10 Plus, Supermicro AS-4124GS-TNR. Избранные партнёры уже получили новые ускорители и системы на их основе для оценки производительности и адаптации ПО. Вместе с выходом Instinct MI100 AMD представила и новый мажорный релиз ROCm 4.0, открытой программной платформы для HPC и ИИ. AMD особо отмечает рост производительности, простоту использования и готовность множества программных решений к работе с новым релизом и новым же «железом». И главное — простоту портирования кода на новую платформу, в первую очередь с NVIDIA CUDA. У некоторых разработчиков на это ушло буквально от нескольких часов до одного дня, или до нескольких недель в более сложных случаях. Новая программно-аппаратная платформа на базе AMD EPYC, Instinct M100 и ROCm 4.0 ляжет в основу грядущих суперкомпьютеров Frontier и Pawsey. А вот будут ли новые машины с MI100 в свежем рейтинге TOP500, мы узнаем уже завтра. Конкуренцию новинкам составят новые же ускорители NVIDIA A100 с удвоенным объёмом памяти HBM2e. |
|