Материалы по тегу: rocm

23.12.2020 [01:17], Андрей Галадей

Состоялся релиз платформы AMD ROCm 4.0 с поддержкой MI100 и CDNA

Чуть более месяца назад был анонсирован ускоритель AMD Instinct MI100. Но программная часть в виде Radeon Open eCosystem 4.0 (ROCm 4.0) появилась только сейчас. ROCm — это гипермасштабируемая платформа с открытым исходным кодом, предназначенная для ускорения вычислений за счёт объединения чипов разных классов (CPU, GPU, FPGA и пр.), которая не зависит от языка программирования.

Главной особенностью релиза ROCm 4.0 является поддержка архитектуры CDNA, на которой основан MI100. Помимо этого, в ROCm 4.0 также внесены различные улучшения компонентов, чтобы подготовить его к «эре экзафлопных вычислений» и применении в будущих суперкомпьютерах на базе решений AMD. Первым из них станет Frontier мощностью 1,5 Эфлопс, для которого уже ведутся подготовительные работы по монтажу.

Также в новом релизе заявлена поддержка BFloat16, возможность работы с несколькими графическими процессорами, повышение RAS (надежность, доступность и удобство обслуживания), совместимость с мультимедийным стеком Mesa и улучшения отладчика графического процессора. Более подробная информация о ROCm 4.0 доступна на GitHub.

Интересно, что в числе поддерживаемых GPU заявлены Vega (GFX9) и CDNA, тогда как более старые Polaris и Hawaii (GFX8 и GFX7) с новым стеком работать должны, но полная их поддержка не гарантируется. А вот новая архитектура RDNA Navi (GFX10), похоже, не поддерживается совсем, во всяком случае, официально. При этом свежий релиз Radeon Software для Linux с поддержкой RDNA 2 включает в себя и драйвер OpenCL на базе ROCm. Так что, по идее, совместимость есть, но по какой-то причине она заблокирована программно или ограничена.

Постоянный URL: http://servernews.ru/1028463
19.11.2020 [22:01], Алексей Степин

SC20: AMD ROCm объединит CPU, GPU и FPGA Xilinx

В настоящее время можно сказать, что вычислительные устройства различных типов — ЦП, графические процессоры, ПЛИС, DPU и другие ускорители — существуют практически отдельно друг от друга. И каждый случай, требующий их совместной работы, приходится рассматривать отдельно. Однако будущее за конвергенцией: куда проще и выгоднее иметь единую открытую программную платформу, позволяющую легко комбинировать различные ускорители, составляя из них систему, способную оптимально решать поставленные перед ней задачи.

Intel продвигает oneAPI как единую, универсальную платформу для разработки под все вычислительные платформы сразу. У AMD же есть проект ROCm, который позволяет объединить усилия CPU и GPU, а теперь — хотя сделка до конца не закрыта — FPGA Xilinx. На SC20 компании провели первую демонстрацию работы.

Ускорители Xilinx Alveo, как, впрочем, и любые ускорители на базе достаточно сложных ПЛИС, имеют широчайший спектр применения, от чисто вычислительных задач до вспомогательных, вроде обслуживания «умных» сетевых соединений и работы в качестве «сопроцессора данных» (DPU). Суть проведённой AMD демонстрации в том, что за счёт службы трансляции адресов PCIe (Address Translation Service, ATS) платы Alveo получают доступ к ресурсам памяти других устройств, будь то системные процессоры или ГП-ускорители.

Платформа AMD ROCm позволяет унифицировать такие процессы, как обнаружение и резервирование ресурсов ПЛИС в ускорителях Alveo. При этом обеспечивается безопасная изоляция ресурсов памяти для каждого пользователя, синхронизация ускорителей Alveo и Instinct, а за распределение нагрузки пользовательских запросов используется тот же механизм, что и для плат Instinct.

Такой подход должен действительно упростить и унифицировать создание HPC-систем нового поколения, которые будут сочетать в себе ускорители различных типов. Подробнее о технологии ROCm можно узнать на сайте AMD. Поскольку платформа является открытой, следует ожидать появления нового кода и в репозиториях ROCm на GitHub.

Постоянный URL: http://servernews.ru/1025811
16.11.2020 [17:00], Игорь Осколков

SC20: AMD Instinct MI100 — самый быстрый PCIe-ускоритель на базе новой архитектуры CDNA

AMD Instinct MI100 — первый ускоритель на базе 7-нм архитектуры CDNA, которая в отличие от RDNA ориентирована на вычисления, а не на графику, хотя и сохраняет некоторые компоненты для рендеринга. Тем не менее, пути RDNA и CDNA окончательно разошлись, и новый ускоритель предназначен исключительно для высокопроизводительных вычислений и ИИ.

Первенец серии MI100 имеет 120 CU, которые содержат новые блоки для матричных операций, которые важны в ИИ-нагрузках. Но работают они не в ущерб «классическим» вычислениям — пиковая FP64-производительность составляет 11,5 Тфлопс, а для FP32 ровно в два раза больше, 23 Тфлопс. Эти показатели выше, чем у NVIDIA A100, и AMD настаивает, что именно такой прирост производительности нужен для запланированного достижения заветной производительности в один экзафлопс.

AMD Instinct MI100

AMD Instinct MI100

Впрочем, на другом конце спектра, в bfloat16-вычислениях, новинка от AMD проигрывает — 92,3 Тфлопс против 312 Тфлопс на Tensor Core. Прочие приведённые значения производительности для других показателей точности вычислений варьируются. Кроме того, PCIe-версия A100 в силу более низкого энергопотребления на реальных задачах может быть несколько медленнее, чем SXM-версия. А Instinct MI100, пока во всяком случае, доступна только в форм-факторе полноразмерной PCIe-карты с потреблением на уровне 300 Вт.

Карта оснащена 32 Гбайт HBM2-памяти c пропускной способностью 1,23 Тбайт/с, что несколько меньше, чем у PCIe-версии NVIDIA A100: 40 Гбайт HBM2e и 1,555 Тбайт/с соответственно. У обеих карт есть основной интерфейс PCIe 4.0 x16 (64 Гбайт/с) и дополнительная шина для прямого обмена данными между ускорителями. В случае NVIDIA это NVLink (600 Гбайт/с), который для PCIe-версии ограничен только двумя картами, а в случае AMD — это Infinity Fabric (IF).

У MI100 есть три IF-интерфейса с пропускной способностью 92 Гбайт/c (суммарно 276 Гбайт/с), что даёт возможность объединить до четырёх ускорителей, которые могут общаться друг с другом по схеме каждый-с-каждым. Причём оно не зависит от того, по какому интерфейсу, PCIe 3.0 или 4.0, сами ускорители подключены к хосту. Естественно, наиболее оптимальным вариантом для системы в целом будет связка из AMD EPYC и новых MI100.

Основной же козырь AMD, как это зачастую бывало и ранее — это стоимость новинок. Точные цены компания не приводит, но говорит о том, что по показателю производительность на доллар они 1,8-2,1 раза лучше, чем NVIDIA A100. Среди первых систем, для которых сделана валидация новых ускорителей есть Dell PowerEdge R7525, Gigabyte G482-Z54, HPE Apollo 6500 Gen10 Plus, Supermicro AS-4124GS-TNR. Избранные партнёры уже получили новые ускорители и системы на их основе для оценки производительности и адаптации ПО.

Вместе с выходом Instinct MI100 AMD представила и новый мажорный релиз ROCm 4.0, открытой программной платформы для HPC и ИИ. AMD особо отмечает рост производительности, простоту использования и готовность множества программных решений к работе с новым релизом и новым же «железом». И главное — простоту портирования кода на новую платформу, в первую очередь с NVIDIA CUDA. У некоторых разработчиков на это ушло буквально от нескольких часов до одного дня, или до нескольких недель в более сложных случаях.

Новая программно-аппаратная платформа на базе AMD EPYC, Instinct M100 и ROCm 4.0 ляжет в основу грядущих суперкомпьютеров Frontier и Pawsey. А вот будут ли новые машины с MI100 в свежем рейтинге TOP500, мы узнаем уже завтра. Конкуренцию новинкам составят новые же ускорители NVIDIA A100 с удвоенным объёмом памяти HBM2e.

Постоянный URL: http://servernews.ru/1025425
30.09.2019 [16:16], Андрей Галадей

Обновление Radeon ROCm 2.8 не получило поддержки GPU Navi

Ещё в 2016 году компания AMD выпустила Radeon Open Compute (ROCm), платформу с открытым исходным кодом для вычислений на «красных» графических процессорах. Она позволяет ускорять гетерогенные расчёты, поддерживают математические библиотеки и современные языки программирования.

На днях вышел релиз ROCm 2.8, который, как оказалось, лишён поддержки свежих ускорителей серии Radeon RX 5700.

amd.com

Многие разработчики ожидали появления поддержки графических решений Navi, однако пока этого не произошло. Впрочем, удивляться, пожалуй, не стоит. На данный момент новые чипы применяются только в игровых решениях, тогда как ROCm больше предназначен для профессиональных ускорителей. Тем не менее, поскольку ROCm нужен AMD для конкуренции с NVIDIA CUDA, жаль, что поддержки Navi нет.

Что касается изменений в ROCm 2.8, то можно упомянуть поддержку API NCCL 2.4.8. Релиз Radeon Open Compute 2.8 доступен на GitHub.

Постоянный URL: http://servernews.ru/994855
Система Orphus