Материалы по тегу: instinct

24.03.2022 [14:41], Сергей Карасёв

Серверы ASUS теперь могут комплектоваться ускорителями AMD Instinct MI210

Компания ASUS сообщила о том, что её серверы отныне могут комплектоваться новейшим ускорителем AMD Instinct MI210, дебютировавшим на этой неделе. Такие системы могут применяться для ИИ-приложений, виртуализации, рендеринга материалов высокого качества и других ресурсоёмких задач.

В частности, установка акселераторов Instinct MI210 доступна для серверов ASUS ESC8000A-E11 и ESC4000A-E11, выполненных в формате 4U и 2U соответственно. Первая модель рассчитана на два процессора AMD EPYC третьего поколения в исполнении Socket SP3 (LGA 4094), вторая — на один.

 Источник изображений: ASUS

Источник изображений: ASUS

Сервер ESC8000A-E11 может быть оборудован восемью ускорителями. Доступны 32 слота для модулей оперативной памяти DDR4-3200 суммарным объёмом до 8 Тбайт. Поддерживается монтаж восьми накопителей LFF или SFF, а также двух твердотельных модулей M.2.

Вариант ESC4000A-E11 рассчитан на четыре акселератора. Объём оперативной памяти DDR4-3200 может составлять до 2 Тбайт (восемь разъёмов). Могут быть задействованы восемь накопителей LFF или SFF и один модуль M.2. Серверы наделены воздушным охлаждением.

Постоянный URL: http://servernews.ru/1062662
23.03.2022 [01:10], Алексей Степин

Анонсирован ускоритель AMD Instinct MI210: половинка MI250 в форм-факторе PCIe-карты

AMD продолжает активно осваивать рынок ускорителей и ИИ-сопроцессоров. Вслед за сверхмощными Instinct MI250 и MI250X, анонсированными ещё осенью прошлого года, «красные» представили новинку — ускоритель Instinct MI210. Это менее мощная, одночиповая версия ускорителя с архитектурой CDNA 2, дополняющая семейство MI200 и имеющая более универсальный форм-фактор PCIe-карты.

Если Instinct MI250/250X существует только как OAM-модуль, то новый Instinct MI210 имеет вид обычной платы расширения с разъёмом PCI Express 4.0. Это неудивительно, ведь MI250 физически невозможно уложить в тепловые и энергетические рамки, обеспечиваемые таким форм-фактором, поскольку два чипа Aldebaran требуют 560 Вт против привычных для PCIe-плат 300 Вт. Для питания MI210 используется как слот PCIe, так и 8-контактный разъём EPS12V.

Поскольку ускоритель на борту новинки только один, она вдвое уступает MI250/250X по всем параметрам, но всё равно обеспечивает весьма неплохую производительность во всех форматах вычислений. Стоит отметить, что функциональные возможности MI210 не уменьшились. Осталась, например, поддержка Infinity Fabric 3.0 — соответствующие разъёмы расположены в верхней части карты, и она поддерживает работу в кластерном режиме из двух или четырёх ускорителей.

 AnandTech

Таблица опубликована AnandTech

В MI210 используется более простой вариант Aldebaran с одним кристаллом. Что интересно, по количеству вычислительных блоков этот вариант уступает более старому MI100 (104 CU против 120, 416 матричных ядер против 480). Однако последний использует первую итерацию архитектуры CDNA и работает на меньшей частоте — 1500 против 1700 МГц у новинки. В некоторых форматах вычислений MI100 может быть быстрее, но разница крайне незначительна.

 Производительность AMD Instinct MI210 в сравнении с NVIDIA A100 40GB PCIe

Производительность AMD Instinct MI210 в сравнении с NVIDIA A100 40GB PCIe

CDNA2 позволяет использовать уникальные форматы данных, вроде packed FP32, однако это требует поддержки со стороны разработчиков, что несколько затруднит создание универсального ПО, способного полностью задействовать возможности MI210. Но в первую очередь, это ускоритель, не «зажимающий» FP64-производительность: свыше 22 Тфлопс в векторных операциях и 45 Тфлопс — в матричных.

Сервер с одним или несколькими MI210 может использоваться в качестве универсальной платформы разработки ПО для суперкомпьютеров на базе более мощных ускорителей AMD Instinct MI250/250X. Новинка уже доступна у традиционных партнёров AMD по выпуску серверов, включая ASUS, Dell, HPE, Supermicro и Lenovo, которые также предлагают более мощные решения на базе MI250/250X.

Постоянный URL: http://servernews.ru/1062518
17.12.2021 [00:22], Владимир Агапов

Облако AMD Accelerator Cloud даст доступ к новейшим процессорам EPYC и ускорителям Instinct

AMD анонсировала новую платформу для разработчиков AMD Accelerator Cloud (AAC). Это приватное облако, которое обеспечивает удалённый доступ к новейшим продуктам AMD для тестирования их возможностей в задачах высокопроизводительных вычислений (HPC) и искусственного интеллекта (ИИ).

Для начала работы с платформой необходимо пройти регистрацию и получить одобрение доступа со стороны AMD, после чего пользователи получат возможность формировать по запросу необходимую конфигурацию узлов, выбирая нужные им ускорители AMD Instinct, ОС, а также версию пакета ROCm, ради продвижения которого, судя по всему, всё и затевалось.

В ближайшие месяцы в облаке появятся ускорители Instinct MI200 и новейшие процессоры AMD EPYC, которые можно будет протестировать на пригодность для выполнения планируемых пользователем рабочих нагрузок. Это упростит перенос кода, бенчмаркинг ПО или тесты по масштабированию нагрузок на большее количество вычислительных узлов.

 Изображение: AMD

Изображение: AMD

Компания намерена дополнить этот сервис треннингами и хакатонами, в том числе приватными, для того, чтобы потенциальные клиенты смогли быстрее отточить свои навыки и получить максимальную отдачу от решений AMD. Это немаловажная для AMD инициатива, поскольку многие разработчики приложений HPC/ИИ не так хорошо осведомлены о текущих возможностях программных решений AMD.

Аналогичный сервис два года назад представила Intel — в облачной платформе DevCloud доступны процессоры, ускорители, GPU и FPGA компании, а также наборы средств разработки, программные пакеты, библиотеки и прочее ПО, необходимое для тестирования и оптимизации программных решений. Запуск DevCloud был приурочен к анонсу oneAPI и ускорителей Intel Xe.

Постоянный URL: http://servernews.ru/1056122
18.11.2021 [00:33], Игорь Осколков

Французский суперкомпьютер Adastra с AMD EPYC Genoa и Instinct MI250X станет одним из самых мощных в Европе

Французские национальное агентство по высокопроизводительным вычислениям (GENCI) и Национальный вычислительный центр высшего образования (CINES), а также Национальный центр научных исследований (CNRS) объявили о постройке нового суперкомпьютера Adastra (от лат. «Через тернии к звёздам») и расширении возможностей самого производительного академического суперкомпьютера страны Jean Zay. В обоих случаях подрядчиком станет HPE.

Система Adastra производительностью 70 Пфлопс будет в 20 раз быстрее той, что сейчас имеется в распоряжении учёны и исследователей CINES — это машина Occigen мощностью 3,5 Пфлопс, впервые попавшая в TOP500 ещё в 2014 году. Основой же новой системы станет платформа HPE Cray EX, которая будет развёрнута в два этапа.

Весной 2022 года планируется получить первый блок, состоящий из гибридных узлов c «оптимизированными процессорами AMD EPYC 7003» (не уточняется, будут ли это Milan-X), 256 Гбайт DDR4 и четырьмя OAM-ускорителями Instinct MI250X. Постройка второго блока Adastra должна закончиться к концу следующего года. Он будет состоять из узлов с процессорами AMD EPYC Genoa и 768 Гбайт DDR5. Интерконнектом для всех узлов будет Slingshot 11 (200 Гбит/с): по четыре штуки для гибридных узлов (т.е. в соотношении 1:1 с ускорителями) и по одному для каждого узла второго блока.

Дополнит суперкомпьютер гибридная СХД Cray ClusterStor E1000 c ФС Lustre. Для «горячих» данных будет доступно all-flash хранилище ёмкостью 2 Пбайт с пропускной способностью 1,3 Тбайт/с, а для «холодных» — СХД с быстрыми HDD общей ёмкостью 25 Пбайт и скоростью обмена данными 250 Гбайт/с. Максимально устоявшееся потребление всего комплекса составит 1,59 МВт. Благодаря охлаждению горячей водой коэффициент PUE будет равен 1,10.

 Суперкомпьютер Jean Zay (Фото: Cyril Fresillon/IDRIS/CNRS Photothèque)

Суперкомпьютер Jean Zay (Фото: Cyril Fresillon/IDRIS/CNRS Photothèque)

Adastra будет использоваться для научных исследований. В первую очередь в области возобновляемой энергетики, что должно помочь в снижении углеродного следа. Также он поможет в разработке материалов для аккумуляторных технологий следующего поколения, в создании новых лекарственных препаратов и в изучении новых методов лечения.

Суперкомпьютер Jean Zay (платформа HPE SGI 8600) с заявленной пиковой производительностью 28 Пфлопс (в TOP500 это не отражено) в начале 2022 года получит уже второй существенный апгрейд. Машину дополнят 52 узла HPE Apollo 6500 Gen10, каждый из которых содержит восемь ускорителей NVIDIA A100 (80 Гбайт). «Мусорное» тепло от кластера будет направлено в систему отопления Университета Париж-Сакле.

Постоянный URL: http://servernews.ru/1053977
08.11.2021 [20:00], Игорь Осколков

AMD анонсировала Instinct MI200, самые быстрые в мире ускорители вычислений на базе CDNA 2

В прошлом году AMD окончательно развела ускорители для графики и вычислений, представив Instinct MI100, первый продукт на базе архитектуры CDNA, который позволил компании противостоять NVIDIA. Теперь же AMD подготовила новую версию архитектуры CDNA 2 и ускорители MI200 на неё основе. Новинки, согласно внутренним тестам, в ряде задач на голову выше того, что сейчас может предложить NVIDIA.

 AMD Instinct MI200 в OAM-варианте (Здесь и ниже изображения AMD)

AMD Instinct MI200 в OAM-варианте (Здесь и ниже изображения AMD)

Циркулировавшие ранее слухи оказались верны — MI200 являются двухчиповыми решениями с 2.5D-упаковкой кристаллов (GCD) самих ускорителей, четырёх линий Infinity Fabric между ними и восьми стеков памяти HBM2e (8192 бит, 1600 МГц, 128 Гбайт, 3,2 Тбайт/c). В данном случае используется мостик EFB (Elevated Fanout Bridge), который позволяет задействовать стандартные подложки, что удешевляет и упрощает производство и тестирование ускорителей, не потеряв при этом в производительности и, что важнее, без существенного увеличения задержек в обмене данными.

Несмотря на то, что в составе ускорителя два GCD, системе они представляются как единое целое с общей же памятью. Каждый GCD в случае CDNA 2 включает 112 CU (Compute Unit), но в конечных продуктах они задействованы не все. CU разбиты на четыре группы (с индивидуальным планировщиком) с общим L2-кешем объёмом 8 Мбайт и пропускной способностью 6,96 Тбайт/с, который поделён на 32 отдельных блока. А сами блоки имеют индивидуальные подключения к контроллерам памяти в GCD.

Важное отличие CDNA 2 заключается в «подтягивании» производительности векторных FP64- и FP32-вычислений — они исполняются с одинаковой скоростью в отличие от CDNA первого поколения. Кроме того, появилась поддержка сжатых (packed) инструкций для операций FMA/FADD/FMUL для FP32-векторов. Второй крупный апдейт касается матричных вычислений. Для них теперь тоже есть отдельная поддержка FP64, и с той же производительностью, что и для FP32. Новые инструкции рассчитаны на блоки 16×16×4 и 4×4×4.

Поддержка FP16/BF16 в матричных ядрах, конечно, тоже есть, что позволяет задействовать их и для ИИ-задач, а не только HPC. Подспорьем для них в некоторых задачах будут два блока VCN (Video Codec Next) в каждом GCD. Они поддерживают декодирование H.264/AVC, H.265/HEVC, VP9 и JPEG, а также кодирование H.264/H.265, что потенциально позволит более эффективно работать ИИ-алгоритмам с изображениями и/или видео.

Для обмена данными между ускорителями и CPU используется единая шина Infinity Fabric (IF) с поддержкой кеш-когерентности. Всего на ускоритель приходится до восьми внешних линий IF, а суммарная скорость обмена данными может достигать 800 Гбайт/c. В наиболее плотной компоновке из четырёх MI200 и одного EPYC каждый ускоритель имеет по две линии для связи с CPU и со своим соседом. Причём внутренние и внешние IF-линии образуют два двунаправленных кольца между ускорителями. Каждая IF-линия опирается на x16-подключение PCIe 4.0, но в данном случае есть ряд оптимизаций конкретно под HPC-системы HPE Cray.

Дополнительно у каждого ускорителя есть собственный root-комплекс, что позволяет напрямую подключить сетевой адаптер класса 200G. И это явный намёк на возможность непосредственного RDMA-соединения с внешними хранилищами, поскольку в такой схеме на локальные NVMe-накопители линий попросту не остаётся. Более простые топологии уже предполагают использование половины линий IF в качестве обычного PCIe-подключения и задействуют коммутатор(-ы) для связи с CPU и NIC. В этом случае IF-подключение остаётся только между процессорами. Зато в одной системе можно объединить восемь MI200.

Чипы ускорителей MI250X изготовлены по 6-нм техпроцессу FinFet, содержат 58 млрд транзисторов и предлагают 220 CU, включающих 880 ядер для матричных вычислений и 14080 шейдерных ядер второго поколения. У MI250 их 208, 832 и 13312 соответственно. Для обеих моделей уровень TDP составляет 500 или 560 Вт, поэтому поддерживается как воздушное, так и жидкостное охлаждение. В дополнение к OAM-версиям MI250(X) чуть позже появится и более традиционная PCIe-модель MI210.

Для сравнения — у NVIDIA A100 объём и пропускная способность памяти (тоже HBM2e) составляют до 80 Гбайт и 2 Тбайт/с соответственно. Шина же NVLink 3.0 имеет пропускную способность 600 Гбайт/c, а коммутатор NVSwitch для связи между восемью ускорителями — 1,8 Тбайт/с. Потребление SXM3-версии составляет 400 Вт. Стоит также отметить, что первая версия A100 появилась ещё весной 2020 года, и скоро ожидается анонс следующего поколения ускорителей на базе архитектуры Hopper. На носу и выход ускорителей Intel Xe Ponte Vecchio.

И если про первые мы пока ничего толком не знаем, то вторые, похоже, уже проиграли MI250X в «голой» производительности как минимум по одной позиции (FP32). AMD говорит, что создавала Instinct MI200 как серию универсальных ускорителей, пригодных и для «классических» HPC-задач, и для ИИ. Отсюда и практически пятикратная разница в пиковой FP64-производительности с NVIDIA A100.

Но вот с нейронками всё не так однозначно. Предпочтительным форматом для обучения у NVIDIA является собственный TF32, поддержка которого есть в Tensor-ядрах Ampere. Ядра для матричных вычислений в CDNA2 про него ничего не знают, поэтому сравнить производительность в лоб нельзя. Разница в BF16/FP16 между MI250X и A100 уже не так велика, так что AMD говорит о приросте в 1,2 раза для обучения со смешанной точностью.

Данные по INT8 и INT4 в презентацию не вынесены, что неудивительно. Пиковый показатель для обоих форматов у MI250X составляет 383 Топс, тогда как тензорные ядра NVIDIA A100 выдают 624 и 1248 Топс соответственно. В данном случае больший объём памяти сыграл бы на руку MI200 в задачах инференса для крупных моделей. Наконец, у A100 есть ещё одно преимущество — поддержка MIG (Multi-Instance GPU), которая позволяет более эффективно задействовать имеющиеся ресурсы, особенно в облачных системах.

Вместе с Instinct MI200 была анонсирована и новая версия открытой (open source) платформы ROCm 5.0, которая обзавелась поддержкой и различными оптимизациями не только для этих ускорителей, но и, например, Radeon Pro W6800. В этом релизе компания уделит особое внимание расширению программной экосистемы и адаптации большего числа приложений. Кроме того, будет развиваться и новый портал Infinity Hub, где будет представлено больше готовых к использованию контейнеров с популярным ПО с рекомендациями по настройке и запуску.

AMD Instinct MI200 появятся в I квартале 2022 года. Новинки, в первую очередь MI210, будут доступны у крупных OEM/ODM-производителей: ASUS, Atos (X410-A5 2U1N2S), Dell Technologies, Gigabyte (G262-ZO0), HPE, Lenovo и Supermicro. Ускорители Instinct MI250X пока остаются эксклюзивом для систем HPE Cray Ex. Именно они вместе с «избранными» процессорами AMD EPYC (без уточнения, будут ли это Milan-X) станут основой для самого мощного в США суперкомпьютера Frontier.

Окончательный ввод в эксплуатацию этого комплекса запланирован на будущий год. Ожидается, что его пиковая производительность превысит 1,5 Эфлопс. При этом он должен стать самой энергоэффективной системой подобного класса. А адаптация ПО под него позволит несколько потеснить NVIDIA CUDA в некоторых областях. И это для AMD сейчас, пожалуй, гораздо важнее, чем победа по флопсам.

Постоянный URL: http://servernews.ru/1053240
29.09.2021 [23:03], Андрей Галадей

AMD обещает в 30 раз повысить энергоэффективность серверных решений к 2025 году

Компания AMD к 2025 году намерена в 30 раз повысить энергоэффективность процессоров AMD EPYC и ускорителей AMD Instinct в приложениях для обучения искусственного интеллекта (ИИ) и высокопроизводительных вычислений (HPC). Там образом, это улучшение будет в 2,5 раза превосходить средний показатель по отрасли за последние 5 лет.

«Достижение повышения энергоэффективности процессоров является долгосрочным приоритетом для AMD, и сейчас мы ставим новую цель для современных вычислительных узлов, использующих наши высокопроизводительные процессоры и ускорители. Цель затрагивает применение процессоров и ускорителей для обучения ИИ и развертывания высокопроизводительных вычислений», — заявил Марк Пейпермастер (Mark Papermaster), исполнительный вице-президент и технический директор AMD.

Пока сложно сказать, насколько реально уменьшение энергопотребления ЦОД без кардинальной смены архитектуры вычислителей. Однако в теории это возможно. Повышение энергоэффективности является одной из целей масштабной кампании AMD в области экологического, социального и управленческого менеджмента (ESG), которая целиком охватывает её деятельность, включая и цепочки поставок.

Постоянный URL: http://servernews.ru/1050220
20.08.2021 [23:36], Андрей Галадей

AMD запустила новый open source портал Infinity Hub

Компания AMD запустила Infinity Hub, новый портал для проектов с открытым исходным кодом, которые используются в HPC. Это не первая инициатива компании в данной области, но, пожалуй, пока самая интересная и многообещающая. Infinity Hub ориентирован на решения для высокопроизводительных вычислений (HPC), которые будут работать в первую очередь на ускорителях AMD Instinct, а не на Radeon.

Портал «заточен» на перенос существующего ПО на платформу Radeon Open Compute (ROCm), а не разработку новых решений с нуля. Сейчас на портале есть инструкции о том, как получить и использовать версии пакетов AMBER, Chroma, CP2K, GROMACS, NAMD, OpenMM, PyTorch, SPECFEM3D и TensorFlow, оптимизированных для ROCm. Некоторые из этих проектов уже имеют поддержку ROCm, так что в этом случае просто описываются технические аспекты.

Хотя ROCm может работать и с некоторыми потребительскими ускорителями Radeon, всё-так больше внимания уделяется именно Instinct. Как отмечается, AMD стремится сделать Infinity Hub ресурсом, который упростит развертывание рабочих нагрузок HPC на ускорителях вычислений. Эта инициатива также позволяет объединить все необходимые данные в одном месте.

Постоянный URL: http://servernews.ru/1047238
01.07.2021 [18:32], Андрей Галадей

Патчи для ядра Linux указывают на то, что следующий ускоритель AMD Instinct получит MCM-компоновку и 64 Гбайт HBM

Для новых гетерогенных вычислительных систем AMD готовятся свежие патчи ядра Linux. Речь идёт о системах на базе новых ускорителей Aldebaran (вероятно, под именем MI200), которые будут подключаться к CPU и GPU и получат HBM2-память. Эти обновления касаются драйвера AMD64 EDAC.

Обычно он предназначен для обработки и исправления системных ошибок DRAM ECC, но теперь его функциональность расширили под новые гетерогенные системы. Как ожидается, свежие патчи появятся в ядре Linux 5.14 (менее вероятно) или 5.15 (более вероятно).

Как ожидается, ускорители Aldebaran станут заменой для AMD Instinct MI100 (кодовое имя Arcturus). Судя по содержимому патчей, модули Aldebaran получат MCM-исполнение (ожидается, что это будут два блока Arcturus) с четырьмя унифицированными контроллерами памяти, по 8 каналов у каждого. А каждый канал будет подключен к 2 Гбайт HBM2(e), то есть суммарный объём набортной памяти составит 64 Гбайт.

Само собой, такие системы найдут применение только в дата-центрах и суперкомпьютерах. Про Aldebaran, в частности, неоднократно говорилось, что этот ускоритель в форм-факторе OAM получат системы на базе HPE Cray Ex. Будет ли это Frontier, для которого уже готовится поддержка согласованного обращения к памяти CPU и GPU, не уточняется.

Постоянный URL: http://servernews.ru/1043252
29.06.2021 [00:03], Владимир Агапов

За год число суперкомпьютеров с процессорами AMD в рейтинге TOP500 выросло в 5 раз

На суперкомпьютерной выставке-конференции ISC 2021 AMD рассказала об обновлениях открытой платформы ROCm, представила инициативу по поддержке образовательных и исследовательских программ Education and Research (AIER) для использования ускорителей AMD Instinct, а также продемонстрировала динамику внедрения своих процессоров EPYC в отрасли высокопроизводительных вычислений (HPC).

Последний список Top500 рейтинга суперкомпьютеров демонстрирует продолжающийся рост числа процессоров AMD EPYC для HPC-систем. На процессорах AMD EPYC теперь базируется почти в 5 раз больше систем (49 против 10) по сравнению со списком июня 2020 года. Кроме того, они используются в половине 58 новых систем, пополнивших нынешний рейтинг.

«Высокопроизводительные вычисления приобретают всё большее значение при решении многих важных мировых проблем. И наша компания с помощью продуктов EPYC и Instinct стремится обеспечить такой уровень производительности и возможностей, который позволит преодолеть эксафлопсный барьер, ускорит научные открытия и внедрение инноваций» — прокомментировал Форрест Норрод (Forrest Norrod), старший вице-президент подразделения по центрам обработки данных и встраиваемым системам компании AMD.

В число новейших HPC-систем, построенных на продуктах AMD входят CSD3, COSMA8, Discoverer, Perlmutter, MeluXina, гибридная система метеобюро Великобритании, сразу четыре облачных NDv4-кластера в Microsoft Azure, вычислительный комплекс Национального суперкомпьютерного центра (NSCC) Сингапура, система Национального центра атмосферных исследований США (NCAR) и другие. Правда, около половины новых систем с EPYC, попавших в свежий список TOP500, соседствуют с ускорителями NVIDIA, которые обычно и обеспечивают основную производительность в такой связке.

 top500.org

top500.org

Исследование Intersect360, проведенное в 2020 году среди HPC-пользователей, показало, что AMD EPYC оставили у 78% респондентов положительные впечатления. Для сравнения, в 2016 году таких насчитывалось лишь 36%. Согласно новому исследованию Intersect360, 23% респондентов заявили о широком использовании процессоров EPYC в HPC-системах, а еще 47% в той или иной степени тестируют или используют эти процессоры. Этой тенденции, вероятно, в ещё большей степени будет способствовать недавний запуск новой серии процессоров AMD EPYC 7003.

Новых ускорителей на ISC 2021 компания не показала, но помочь учёным и исследователям воспользоваться всей мощью уже имеющихся в портфолио AMD решений Instinct призвана образовательная программа AIER. Она предлагает удалённый доступ к Instinct, учебному центру AMD ROCm и соответствующему ПО, а также к технической поддержке и руководствам по программным и аппаратным решениям AMD. Участвуют в программе как региональные партнёры, так и глобальные компании: Dell Technologies, Gigabyte, HPE и Supermicro.

Открытая программная платформа ROCm продолжает получать отраслевую поддержку, обрастая новыми приложениями, библиотеками и фреймворками для использования AMD-ускорителей. Это свидетельствует о том, что предложенный AMD инструмент для преобразования кода CUDA в C++, HIP воспринят сообществом как гетерогенная модель программирования, которую можно использовать при написании или адаптации своих кодов для ускорения на графических процессорах AMD, включая Gromacs, TensorFlow и GridTools.

В частности, теперь PyTorch для ROCm стал доступен в виде устанавливаемого пакета Python, что открывает перед разработчиками возможности для вычислений смешанной точности и крупномасштабного обучения с использованием библиотек AMD MIOpen и RCCL. А совсем недавно и CuPy, открытая библиотека для GPU-вычислений, получила версию 9.0 с поддержкой стека ROCm и ускорителей AMD.

Постоянный URL: http://servernews.ru/1043045
16.11.2020 [20:44], Алексей Степин

Подробности об архитектуре AMD CDNA ускорителей Instinct MI100

Лидером в области использования графических архитектур для вычислений долгое время была NVIDIA, однако давний соперник в лице AMD вовсе не собирается сдавать свои позиции. В ответ на анонс архитектуры Ampere и ускорителей нового поколения A100 на её основе компания AMD сегодня ответила своим анонсом первого в мире ускорителя на основе архитектуры CDNA — сверхмощного процессора Instinct MI100.

Достаточно долго подход к проектированию графических чипов оставался унифицированным, однако быстро выяснилось, что то, что хорошо для игр, далеко не всегда хорошо для вычислений, а некоторые возможности для областей применения, не связанных с рендерингом 3D-графики, попросту избыточны. Примером могут служить модули растровых операций (RBE/ROP) или наложения текстур. Произошло то, что должно было произойти: слившиеся на какое-то время воедино ветви эволюции «графических» и «вычислительных» процессоров вновь начали расходиться. И новый процессор AMD Instinct MI100 относится к чисто вычислительной ветви развития подобного рода чипов.

Теперь AMD имеет в своём распоряжении две основных архитектуры, RDNA и CDNA, которые и представляют собой вышеупомянутые ветви развития GPU. Естественно, новый процессор Instinct MI100 унаследовал у своих собратьев по эволюции многое — в частности, блоки исполнения скалярных и векторных инструкций: в конце концов, всё равно, работают ли они для расчёта графики или для вычисления чего-либо иного. Однако новинка содержит и ряд отличий, позволяющих ей претендовать на звание самого мощного и универсального в мире ускорителя на базе GPU.

 Схема эволюции графических процессоров: налицо дивергенция признаков

Схема эволюции графических процессоров: налицо дивергенция признаков

AMD в последние годы существенно укрепила свои позиции, и это отражается в создании собственной единой IP-инфраструктуры: новый чип выполнен с использованием 7-нм техпроцесса и все системы интерконнекта, как внутренние, так и внешние, в MI100 базируются на шине AMD Infinity второго поколения. Внешние каналы имеют ширину 16 бит и оперируют на скорости 23 Гт/с, однако если в предыдущих моделях Instinct их было максимум два, то теперь количество каналов Infinity Fabric увеличено до трёх. Это позволяет легко организовывать системы на базе четырёх MI100 с организацией межпроцессорного общения по схеме «все со всеми», что минимизирует задержки.

 Ускорители Instinct MI100 получили третий канал Infinity Fabric

Ускорители Instinct MI100 получили третий канал Infinity Fabric

Общую организацию внутренней архитектуры процессор MI100 унаследовал ещё от архитектуры GCN; его основу составляют 120 вычислительных блоков (compute units, CU). При принятой AMD схеме «64 шейдерных блока на 1 CU» это позволяет говорить о 7680 процессорах. Однако на уровне вычислительного блока архитектура существенно переработана, чтобы лучше отвечать требованиям, предъявляемым современному вычислительному ускорителю.

В дополнение к стандартным блокам исполнения скалярных и векторных инструкций добавился новый модуль матричной математики, так называемый Matrix Core Engine, но из кремния MI100 удалены все блоки фиксированных функций: растеризации, тесселяции, графических кешей и, конечно, дисплейного вывода. Универсальный движок кодирования-декодирования видеоформатов, однако, сохранён — он достаточно часто используется в вычислительных нагрузках, связанных с обработкой мультимедийных данных.

Структурная схема вычислительных модулей в MI100

Каждый CU содержит в себе по одному блоку скалярных инструкций со своим регистровым файлом и кешем данных, и по четыре блока векторных инструкций, оптимизированных для вычислений в формате FP32 саналогичными блоками. Векторные модули имеют ширину 16 потоков и обрабатывают 64 потока (т.н. wavefront в терминологии AMD) за четыре такта. Но самое главное в архитектуре нового процессора — это новые блоки матричных операций.

Наличие Matrix Core Engines позволяет MI100 работать с новым типом инструкций — MFMA (Matrix Fused Multiply-Add). Операции над матрицами размера KxN могут содержать смешанные типы входных данных: поддерживаются режимы INT4, INT8, FP16, FP32, а также новый тип Bfloat16 (bf16); результат, однако, выводится только в форматах INT32 или FP32. Поддержка столь многих типов данных введена для универсальности и MI100 сможет показать высокую эффективность в вычислительных сценариях разного рода.

 Использование Infinity Fabric 2.0 позволило ещё более увеличить производительность MI100

Использование Infinity Fabric 2.0 позволило ещё более увеличить производительность MI100

Каждый блок CU имеет свой планировщик, блок ветвления, 16 модулей load-store, а также кеши L1 и Data Share объёмами 16 и 64 Кбайт соответственно. А вот кеш второго уровня общий для всего чипа, он имеет ассоциативность 16 и объём 8 Мбайт. Совокупная пропускная способность L2-кеша достигает 6 Тбайт/с.

Более серьёзные объёмы данных уже ложатся на подсистему внешней памяти. В MI100 это HBM2 — новый процессор поддерживает установку четырёх или восьми сборок HBM2, работающих на скорости 2,4 Гт/с. Общая пропускная способность подсистемы памяти может достигать 1,23 Тбайт/с, что на 20% быстрее, нежели у предыдущих вычислительных ускорителей AMD. Память имеет объём 32 Гбайт и поддерживает коррекцию ошибок.

Общая блок-схема Instinct MI100

«Мозг» чипа Instinct MI100 составляют четыре командных процессора (ACE на блок-схеме). Их задача — принять поток команд от API и распределить рабочие задания по отдельным вычислительным модулям. Для подключения к хост-процессору системы в составе MI100 имеется контроллер PCI Express 4.0, что даёт пропускную способность на уровне 32 Гбайт/с в каждом направлении. Таким образом, «уютнее всего» ускоритель Instinct MI100 будет чувствовать себя совместно с ЦП AMD EPYC второго поколения, либо в системах на базе IBM POWER9/10.

Избавление от лишних архитектурных блоков и оптимизация архитектуры под вычисления в как можно более широком числе форматов позволяют Instinct MI100 претендовать на универсальность. Ускорители с подобными возможностями, как справедливо считает AMD, станут важным строительным блоком в экосистеме HPC-машин нового поколения, относящихся к экзафлопсному классу. AMD заявляет о том, что это первый ускоритель, способный развить более 10 Тфлопс в режиме двойной точности FP64 — пиковый показатель составляет 11,5 Тфлопс.

 Удельные и пиковые показатели производительности MI100

Удельные и пиковые показатели производительности MI100

В менее точных форматах новинка пропорционально быстрее, и особенно хорошо ей даются именно матричные вычисления: для FP32 производительность достигает 46,1 Тфлопс, а в новом, оптимизированном под задачи машинного обучения bf16 — и вовсе 92,3 Тфлопс, причём, ускорители Instinct предыдущего поколения таких вычислений выполнять вообще не могут. В зависимости от типов данных, превосходство MI100 перед MI50 варьируется от 1,74х до 6,97x. Впрочем, NVIDIA A100 в этих задача всё равно заметно быстрее, а вот в FP64/FP32 проигрывают.

Постоянный URL: http://servernews.ru/1025502
Система Orphus