Материалы по тегу: instinct

18.11.2021 [00:33], Игорь Осколков

Французский суперкомпьютер Adastra с AMD EPYC Genoa и Instinct MI250X станет одним из самых мощных в Европе

Французские национальное агентство по высокопроизводительным вычислениям (GENCI) и Национальный вычислительный центр высшего образования (CINES), а также Национальный центр научных исследований (CNRS) объявили о постройке нового суперкомпьютера Adastra (от лат. «Через тернии к звёздам») и расширении возможностей самого производительного академического суперкомпьютера страны Jean Zay. В обоих случаях подрядчиком станет HPE.

Система Adastra производительностью 70 Пфлопс будет в 20 раз быстрее той, что сейчас имеется в распоряжении учёны и исследователей CINES — это машина Occigen мощностью 3,5 Пфлопс, впервые попавшая в TOP500 ещё в 2014 году. Основой же новой системы станет платформа HPE Cray EX, которая будет развёрнута в два этапа.

Весной 2022 года планируется получить первый блок, состоящий из гибридных узлов c «оптимизированными процессорами AMD EPYC 7003» (не уточняется, будут ли это Milan-X), 256 Гбайт DDR4 и четырьмя OAM-ускорителями Instinct MI250X. Постройка второго блока Adastra должна закончиться к концу следующего года. Он будет состоять из узлов с процессорами AMD EPYC Genoa и 768 Гбайт DDR5. Интерконнектом для всех узлов будет Slingshot 11 (200 Гбит/с): по четыре штуки для гибридных узлов (т.е. в соотношении 1:1 с ускорителями) и по одному для каждого узла второго блока.

Дополнит суперкомпьютер гибридная СХД Cray ClusterStor E1000 c ФС Lustre. Для «горячих» данных будет доступно all-flash хранилище ёмкостью 2 Пбайт с пропускной способностью 1,3 Тбайт/с, а для «холодных» — СХД с быстрыми HDD общей ёмкостью 25 Пбайт и скоростью обмена данными 250 Гбайт/с. Максимально устоявшееся потребление всего комплекса составит 1,59 МВт. Благодаря охлаждению горячей водой коэффициент PUE будет равен 1,10.

Суперкомпьютер Jean Zay (Фото: Cyril Fresillon/IDRIS/CNRS Photothèque)

Суперкомпьютер Jean Zay (Фото: Cyril Fresillon/IDRIS/CNRS Photothèque)

Adastra будет использоваться для научных исследований. В первую очередь в области возобновляемой энергетики, что должно помочь в снижении углеродного следа. Также он поможет в разработке материалов для аккумуляторных технологий следующего поколения, в создании новых лекарственных препаратов и в изучении новых методов лечения.

Суперкомпьютер Jean Zay (платформа HPE SGI 8600) с заявленной пиковой производительностью 28 Пфлопс (в TOP500 это не отражено) в начале 2022 года получит уже второй существенный апгрейд. Машину дополнят 52 узла HPE Apollo 6500 Gen10, каждый из которых содержит восемь ускорителей NVIDIA A100 (80 Гбайт). «Мусорное» тепло от кластера будет направлено в систему отопления Университета Париж-Сакле.

Постоянный URL: http://servernews.ru/1053977
08.11.2021 [20:00], Игорь Осколков

AMD анонсировала Instinct MI200, самые быстрые в мире ускорители вычислений на базе CDNA 2

В прошлом году AMD окончательно развела ускорители для графики и вычислений, представив Instinct MI100, первый продукт на базе архитектуры CDNA, который позволил компании противостоять NVIDIA. Теперь же AMD подготовила новую версию архитектуры CDNA 2 и ускорители MI200 на неё основе. Новинки, согласно внутренним тестам, в ряде задач на голову выше того, что сейчас может предложить NVIDIA.

AMD Instinct MI200 в OAM-варианте (Здесь и ниже изображения AMD)

AMD Instinct MI200 в OAM-варианте (Здесь и ниже изображения AMD)

Циркулировавшие ранее слухи оказались верны — MI200 являются двухчиповыми решениями с 2.5D-упаковкой кристаллов (GCD) самих ускорителей, четырёх линий Infinity Fabric между ними и восьми стеков памяти HBM2e (8192 бит, 1600 МГц, 128 Гбайт, 3,2 Тбайт/c). В данном случае используется мостик EFB (Elevated Fanout Bridge), который позволяет задействовать стандартные подложки, что удешевляет и упрощает производство и тестирование ускорителей, не потеряв при этом в производительности и, что важнее, без существенного увеличения задержек в обмене данными.

Несмотря на то, что в составе ускорителя два GCD, системе они представляются как единое целое с общей же памятью. Каждый GCD в случае CDNA 2 включает 112 CU (Compute Unit), но в конечных продуктах они задействованы не все. CU разбиты на четыре группы (с индивидуальным планировщиком) с общим L2-кешем объёмом 8 Мбайт и пропускной способностью 6,96 Тбайт/с, который поделён на 32 отдельных блока. А сами блоки имеют индивидуальные подключения к контроллерам памяти в GCD.

Важное отличие CDNA 2 заключается в «подтягивании» производительности векторных FP64- и FP32-вычислений — они исполняются с одинаковой скоростью в отличие от CDNA первого поколения. Кроме того, появилась поддержка сжатых (packed) инструкций для операций FMA/FADD/FMUL для FP32-векторов. Второй крупный апдейт касается матричных вычислений. Для них теперь тоже есть отдельная поддержка FP64, и с той же производительностью, что и для FP32. Новые инструкции рассчитаны на блоки 16×16×4 и 4×4×4.

Поддержка FP16/BF16 в матричных ядрах, конечно, тоже есть, что позволяет задействовать их и для ИИ-задач, а не только HPC. Подспорьем для них в некоторых задачах будут два блока VCN (Video Codec Next) в каждом GCD. Они поддерживают декодирование H.264/AVC, H.265/HEVC, VP9 и JPEG, а также кодирование H.264/H.265, что потенциально позволит более эффективно работать ИИ-алгоритмам с изображениями и/или видео.

Для обмена данными между ускорителями и CPU используется единая шина Infinity Fabric (IF) с поддержкой кеш-когерентности. Всего на ускоритель приходится до восьми внешних линий IF, а суммарная скорость обмена данными может достигать 800 Гбайт/c. В наиболее плотной компоновке из четырёх MI200 и одного EPYC каждый ускоритель имеет по две линии для связи с CPU и со своим соседом. Причём внутренние и внешние IF-линии образуют два двунаправленных кольца между ускорителями. Каждая IF-линия опирается на x16-подключение PCIe 4.0, но в данном случае есть ряд оптимизаций конкретно под HPC-системы HPE Cray.

Дополнительно у каждого ускорителя есть собственный root-комплекс, что позволяет напрямую подключить сетевой адаптер класса 200G. И это явный намёк на возможность непосредственного RDMA-соединения с внешними хранилищами, поскольку в такой схеме на локальные NVMe-накопители линий попросту не остаётся. Более простые топологии уже предполагают использование половины линий IF в качестве обычного PCIe-подключения и задействуют коммутатор(-ы) для связи с CPU и NIC. В этом случае IF-подключение остаётся только между процессорами. Зато в одной системе можно объединить восемь MI200.

Чипы ускорителей MI250X изготовлены по 6-нм техпроцессу FinFet, содержат 58 млрд транзисторов и предлагают 220 CU, включающих 880 ядер для матричных вычислений и 14080 шейдерных ядер второго поколения. У MI250 их 208, 832 и 13312 соответственно. Для обеих моделей уровень TDP составляет 500 или 560 Вт, поэтому поддерживается как воздушное, так и жидкостное охлаждение. В дополнение к OAM-версиям MI250(X) чуть позже появится и более традиционная PCIe-модель MI210.

Для сравнения — у NVIDIA A100 объём и пропускная способность памяти (тоже HBM2e) составляют до 80 Гбайт и 2 Тбайт/с соответственно. Шина же NVLink 3.0 имеет пропускную способность 600 Гбайт/c, а коммутатор NVSwitch для связи между восемью ускорителями — 1,8 Тбайт/с. Потребление SXM3-версии составляет 400 Вт. Стоит также отметить, что первая версия A100 появилась ещё весной 2020 года, и скоро ожидается анонс следующего поколения ускорителей на базе архитектуры Hopper. На носу и выход ускорителей Intel Xe Ponte Vecchio.

И если про первые мы пока ничего толком не знаем, то вторые, похоже, уже проиграли MI250X в «голой» производительности как минимум по одной позиции (FP32). AMD говорит, что создавала Instinct MI200 как серию универсальных ускорителей, пригодных и для «классических» HPC-задач, и для ИИ. Отсюда и практически пятикратная разница в пиковой FP64-производительности с NVIDIA A100.

Но вот с нейронками всё не так однозначно. Предпочтительным форматом для обучения у NVIDIA является собственный TF32, поддержка которого есть в Tensor-ядрах Ampere. Ядра для матричных вычислений в CDNA2 про него ничего не знают, поэтому сравнить производительность в лоб нельзя. Разница в BF16/FP16 между MI250X и A100 уже не так велика, так что AMD говорит о приросте в 1,2 раза для обучения со смешанной точностью.

Данные по INT8 и INT4 в презентацию не вынесены, что неудивительно. Пиковый показатель для обоих форматов у MI250X составляет 383 Топс, тогда как тензорные ядра NVIDIA A100 выдают 624 и 1248 Топс соответственно. В данном случае больший объём памяти сыграл бы на руку MI200 в задачах инференса для крупных моделей. Наконец, у A100 есть ещё одно преимущество — поддержка MIG (Multi-Instance GPU), которая позволяет более эффективно задействовать имеющиеся ресурсы, особенно в облачных системах.

Вместе с Instinct MI200 была анонсирована и новая версия открытой (open source) платформы ROCm 5.0, которая обзавелась поддержкой и различными оптимизациями не только для этих ускорителей, но и, например, Radeon Pro W6800. В этом релизе компания уделит особое внимание расширению программной экосистемы и адаптации большего числа приложений. Кроме того, будет развиваться и новый портал Infinity Hub, где будет представлено больше готовых к использованию контейнеров с популярным ПО с рекомендациями по настройке и запуску.

AMD Instinct MI200 появятся в I квартале 2022 года. Новинки, в первую очередь MI210, будут доступны у крупных OEM/ODM-производителей: ASUS, Atos (X410-A5 2U1N2S), Dell Technologies, Gigabyte (G262-ZO0), HPE, Lenovo и Supermicro. Ускорители Instinct MI250X пока остаются эксклюзивом для систем HPE Cray Ex. Именно они вместе с «избранными» процессорами AMD EPYC (без уточнения, будут ли это Milan-X) станут основой для самого мощного в США суперкомпьютера Frontier.

Окончательный ввод в эксплуатацию этого комплекса запланирован на будущий год. Ожидается, что его пиковая производительность превысит 1,5 Эфлопс. При этом он должен стать самой энергоэффективной системой подобного класса. А адаптация ПО под него позволит несколько потеснить NVIDIA CUDA в некоторых областях. И это для AMD сейчас, пожалуй, гораздо важнее, чем победа по флопсам.

Постоянный URL: http://servernews.ru/1053240
29.09.2021 [23:03], Андрей Галадей

AMD обещает в 30 раз повысить энергоэффективность серверных решений к 2025 году

Компания AMD к 2025 году намерена в 30 раз повысить энергоэффективность процессоров AMD EPYC и ускорителей AMD Instinct в приложениях для обучения искусственного интеллекта (ИИ) и высокопроизводительных вычислений (HPC). Там образом, это улучшение будет в 2,5 раза превосходить средний показатель по отрасли за последние 5 лет.

«Достижение повышения энергоэффективности процессоров является долгосрочным приоритетом для AMD, и сейчас мы ставим новую цель для современных вычислительных узлов, использующих наши высокопроизводительные процессоры и ускорители. Цель затрагивает применение процессоров и ускорителей для обучения ИИ и развертывания высокопроизводительных вычислений», — заявил Марк Пейпермастер (Mark Papermaster), исполнительный вице-президент и технический директор AMD.

Пока сложно сказать, насколько реально уменьшение энергопотребления ЦОД без кардинальной смены архитектуры вычислителей. Однако в теории это возможно. Повышение энергоэффективности является одной из целей масштабной кампании AMD в области экологического, социального и управленческого менеджмента (ESG), которая целиком охватывает её деятельность, включая и цепочки поставок.

Постоянный URL: http://servernews.ru/1050220
20.08.2021 [23:36], Андрей Галадей

AMD запустила новый open source портал Infinity Hub

Компания AMD запустила Infinity Hub, новый портал для проектов с открытым исходным кодом, которые используются в HPC. Это не первая инициатива компании в данной области, но, пожалуй, пока самая интересная и многообещающая. Infinity Hub ориентирован на решения для высокопроизводительных вычислений (HPC), которые будут работать в первую очередь на ускорителях AMD Instinct, а не на Radeon.

Портал «заточен» на перенос существующего ПО на платформу Radeon Open Compute (ROCm), а не разработку новых решений с нуля. Сейчас на портале есть инструкции о том, как получить и использовать версии пакетов AMBER, Chroma, CP2K, GROMACS, NAMD, OpenMM, PyTorch, SPECFEM3D и TensorFlow, оптимизированных для ROCm. Некоторые из этих проектов уже имеют поддержку ROCm, так что в этом случае просто описываются технические аспекты.

Хотя ROCm может работать и с некоторыми потребительскими ускорителями Radeon, всё-так больше внимания уделяется именно Instinct. Как отмечается, AMD стремится сделать Infinity Hub ресурсом, который упростит развертывание рабочих нагрузок HPC на ускорителях вычислений. Эта инициатива также позволяет объединить все необходимые данные в одном месте.

Постоянный URL: http://servernews.ru/1047238
01.07.2021 [18:32], Андрей Галадей

Патчи для ядра Linux указывают на то, что следующий ускоритель AMD Instinct получит MCM-компоновку и 64 Гбайт HBM

Для новых гетерогенных вычислительных систем AMD готовятся свежие патчи ядра Linux. Речь идёт о системах на базе новых ускорителей Aldebaran (вероятно, под именем MI200), которые будут подключаться к CPU и GPU и получат HBM2-память. Эти обновления касаются драйвера AMD64 EDAC.

Обычно он предназначен для обработки и исправления системных ошибок DRAM ECC, но теперь его функциональность расширили под новые гетерогенные системы. Как ожидается, свежие патчи появятся в ядре Linux 5.14 (менее вероятно) или 5.15 (более вероятно).

Как ожидается, ускорители Aldebaran станут заменой для AMD Instinct MI100 (кодовое имя Arcturus). Судя по содержимому патчей, модули Aldebaran получат MCM-исполнение (ожидается, что это будут два блока Arcturus) с четырьмя унифицированными контроллерами памяти, по 8 каналов у каждого. А каждый канал будет подключен к 2 Гбайт HBM2(e), то есть суммарный объём набортной памяти составит 64 Гбайт.

Само собой, такие системы найдут применение только в дата-центрах и суперкомпьютерах. Про Aldebaran, в частности, неоднократно говорилось, что этот ускоритель в форм-факторе OAM получат системы на базе HPE Cray Ex. Будет ли это Frontier, для которого уже готовится поддержка согласованного обращения к памяти CPU и GPU, не уточняется.

Постоянный URL: http://servernews.ru/1043252
29.06.2021 [00:03], Владимир Агапов

За год число суперкомпьютеров с процессорами AMD в рейтинге TOP500 выросло в 5 раз

На суперкомпьютерной выставке-конференции ISC 2021 AMD рассказала об обновлениях открытой платформы ROCm, представила инициативу по поддержке образовательных и исследовательских программ Education and Research (AIER) для использования ускорителей AMD Instinct, а также продемонстрировала динамику внедрения своих процессоров EPYC в отрасли высокопроизводительных вычислений (HPC).

Последний список Top500 рейтинга суперкомпьютеров демонстрирует продолжающийся рост числа процессоров AMD EPYC для HPC-систем. На процессорах AMD EPYC теперь базируется почти в 5 раз больше систем (49 против 10) по сравнению со списком июня 2020 года. Кроме того, они используются в половине 58 новых систем, пополнивших нынешний рейтинг.

«Высокопроизводительные вычисления приобретают всё большее значение при решении многих важных мировых проблем. И наша компания с помощью продуктов EPYC и Instinct стремится обеспечить такой уровень производительности и возможностей, который позволит преодолеть эксафлопсный барьер, ускорит научные открытия и внедрение инноваций» — прокомментировал Форрест Норрод (Forrest Norrod), старший вице-президент подразделения по центрам обработки данных и встраиваемым системам компании AMD.

В число новейших HPC-систем, построенных на продуктах AMD входят CSD3, COSMA8, Discoverer, Perlmutter, MeluXina, гибридная система метеобюро Великобритании, сразу четыре облачных NDv4-кластера в Microsoft Azure, вычислительный комплекс Национального суперкомпьютерного центра (NSCC) Сингапура, система Национального центра атмосферных исследований США (NCAR) и другие. Правда, около половины новых систем с EPYC, попавших в свежий список TOP500, соседствуют с ускорителями NVIDIA, которые обычно и обеспечивают основную производительность в такой связке.

top500.org

top500.org

Исследование Intersect360, проведенное в 2020 году среди HPC-пользователей, показало, что AMD EPYC оставили у 78% респондентов положительные впечатления. Для сравнения, в 2016 году таких насчитывалось лишь 36%. Согласно новому исследованию Intersect360, 23% респондентов заявили о широком использовании процессоров EPYC в HPC-системах, а еще 47% в той или иной степени тестируют или используют эти процессоры. Этой тенденции, вероятно, в ещё большей степени будет способствовать недавний запуск новой серии процессоров AMD EPYC 7003.

Новых ускорителей на ISC 2021 компания не показала, но помочь учёным и исследователям воспользоваться всей мощью уже имеющихся в портфолио AMD решений Instinct призвана образовательная программа AIER. Она предлагает удалённый доступ к Instinct, учебному центру AMD ROCm и соответствующему ПО, а также к технической поддержке и руководствам по программным и аппаратным решениям AMD. Участвуют в программе как региональные партнёры, так и глобальные компании: Dell Technologies, Gigabyte, HPE и Supermicro.

Открытая программная платформа ROCm продолжает получать отраслевую поддержку, обрастая новыми приложениями, библиотеками и фреймворками для использования AMD-ускорителей. Это свидетельствует о том, что предложенный AMD инструмент для преобразования кода CUDA в C++, HIP воспринят сообществом как гетерогенная модель программирования, которую можно использовать при написании или адаптации своих кодов для ускорения на графических процессорах AMD, включая Gromacs, TensorFlow и GridTools.

В частности, теперь PyTorch для ROCm стал доступен в виде устанавливаемого пакета Python, что открывает перед разработчиками возможности для вычислений смешанной точности и крупномасштабного обучения с использованием библиотек AMD MIOpen и RCCL. А совсем недавно и CuPy, открытая библиотека для GPU-вычислений, получила версию 9.0 с поддержкой стека ROCm и ускорителей AMD.

Постоянный URL: http://servernews.ru/1043045
16.11.2020 [20:44], Алексей Степин

Подробности об архитектуре AMD CDNA ускорителей Instinct MI100

Лидером в области использования графических архитектур для вычислений долгое время была NVIDIA, однако давний соперник в лице AMD вовсе не собирается сдавать свои позиции. В ответ на анонс архитектуры Ampere и ускорителей нового поколения A100 на её основе компания AMD сегодня ответила своим анонсом первого в мире ускорителя на основе архитектуры CDNA — сверхмощного процессора Instinct MI100.

Достаточно долго подход к проектированию графических чипов оставался унифицированным, однако быстро выяснилось, что то, что хорошо для игр, далеко не всегда хорошо для вычислений, а некоторые возможности для областей применения, не связанных с рендерингом 3D-графики, попросту избыточны. Примером могут служить модули растровых операций (RBE/ROP) или наложения текстур. Произошло то, что должно было произойти: слившиеся на какое-то время воедино ветви эволюции «графических» и «вычислительных» процессоров вновь начали расходиться. И новый процессор AMD Instinct MI100 относится к чисто вычислительной ветви развития подобного рода чипов.

Теперь AMD имеет в своём распоряжении две основных архитектуры, RDNA и CDNA, которые и представляют собой вышеупомянутые ветви развития GPU. Естественно, новый процессор Instinct MI100 унаследовал у своих собратьев по эволюции многое — в частности, блоки исполнения скалярных и векторных инструкций: в конце концов, всё равно, работают ли они для расчёта графики или для вычисления чего-либо иного. Однако новинка содержит и ряд отличий, позволяющих ей претендовать на звание самого мощного и универсального в мире ускорителя на базе GPU.

Схема эволюции графических процессоров: налицо дивергенция признаков

Схема эволюции графических процессоров: налицо дивергенция признаков

AMD в последние годы существенно укрепила свои позиции, и это отражается в создании собственной единой IP-инфраструктуры: новый чип выполнен с использованием 7-нм техпроцесса и все системы интерконнекта, как внутренние, так и внешние, в MI100 базируются на шине AMD Infinity второго поколения. Внешние каналы имеют ширину 16 бит и оперируют на скорости 23 Гт/с, однако если в предыдущих моделях Instinct их было максимум два, то теперь количество каналов Infinity Fabric увеличено до трёх. Это позволяет легко организовывать системы на базе четырёх MI100 с организацией межпроцессорного общения по схеме «все со всеми», что минимизирует задержки.

Ускорители Instinct MI100 получили третий канал Infinity Fabric

Ускорители Instinct MI100 получили третий канал Infinity Fabric

Общую организацию внутренней архитектуры процессор MI100 унаследовал ещё от архитектуры GCN; его основу составляют 120 вычислительных блоков (compute units, CU). При принятой AMD схеме «64 шейдерных блока на 1 CU» это позволяет говорить о 7680 процессорах. Однако на уровне вычислительного блока архитектура существенно переработана, чтобы лучше отвечать требованиям, предъявляемым современному вычислительному ускорителю.

В дополнение к стандартным блокам исполнения скалярных и векторных инструкций добавился новый модуль матричной математики, так называемый Matrix Core Engine, но из кремния MI100 удалены все блоки фиксированных функций: растеризации, тесселяции, графических кешей и, конечно, дисплейного вывода. Универсальный движок кодирования-декодирования видеоформатов, однако, сохранён — он достаточно часто используется в вычислительных нагрузках, связанных с обработкой мультимедийных данных.

Структурная схема вычислительных модулей в MI100

Каждый CU содержит в себе по одному блоку скалярных инструкций со своим регистровым файлом и кешем данных, и по четыре блока векторных инструкций, оптимизированных для вычислений в формате FP32 саналогичными блоками. Векторные модули имеют ширину 16 потоков и обрабатывают 64 потока (т.н. wavefront в терминологии AMD) за четыре такта. Но самое главное в архитектуре нового процессора — это новые блоки матричных операций.

Наличие Matrix Core Engines позволяет MI100 работать с новым типом инструкций — MFMA (Matrix Fused Multiply-Add). Операции над матрицами размера KxN могут содержать смешанные типы входных данных: поддерживаются режимы INT4, INT8, FP16, FP32, а также новый тип Bfloat16 (bf16); результат, однако, выводится только в форматах INT32 или FP32. Поддержка столь многих типов данных введена для универсальности и MI100 сможет показать высокую эффективность в вычислительных сценариях разного рода.

Использование Infinity Fabric 2.0 позволило ещё более увеличить производительность MI100

Использование Infinity Fabric 2.0 позволило ещё более увеличить производительность MI100

Каждый блок CU имеет свой планировщик, блок ветвления, 16 модулей load-store, а также кеши L1 и Data Share объёмами 16 и 64 Кбайт соответственно. А вот кеш второго уровня общий для всего чипа, он имеет ассоциативность 16 и объём 8 Мбайт. Совокупная пропускная способность L2-кеша достигает 6 Тбайт/с.

Более серьёзные объёмы данных уже ложатся на подсистему внешней памяти. В MI100 это HBM2 — новый процессор поддерживает установку четырёх или восьми сборок HBM2, работающих на скорости 2,4 Гт/с. Общая пропускная способность подсистемы памяти может достигать 1,23 Тбайт/с, что на 20% быстрее, нежели у предыдущих вычислительных ускорителей AMD. Память имеет объём 32 Гбайт и поддерживает коррекцию ошибок.

Общая блок-схема Instinct MI100

«Мозг» чипа Instinct MI100 составляют четыре командных процессора (ACE на блок-схеме). Их задача — принять поток команд от API и распределить рабочие задания по отдельным вычислительным модулям. Для подключения к хост-процессору системы в составе MI100 имеется контроллер PCI Express 4.0, что даёт пропускную способность на уровне 32 Гбайт/с в каждом направлении. Таким образом, «уютнее всего» ускоритель Instinct MI100 будет чувствовать себя совместно с ЦП AMD EPYC второго поколения, либо в системах на базе IBM POWER9/10.

Избавление от лишних архитектурных блоков и оптимизация архитектуры под вычисления в как можно более широком числе форматов позволяют Instinct MI100 претендовать на универсальность. Ускорители с подобными возможностями, как справедливо считает AMD, станут важным строительным блоком в экосистеме HPC-машин нового поколения, относящихся к экзафлопсному классу. AMD заявляет о том, что это первый ускоритель, способный развить более 10 Тфлопс в режиме двойной точности FP64 — пиковый показатель составляет 11,5 Тфлопс.

Удельные и пиковые показатели производительности MI100

Удельные и пиковые показатели производительности MI100

В менее точных форматах новинка пропорционально быстрее, и особенно хорошо ей даются именно матричные вычисления: для FP32 производительность достигает 46,1 Тфлопс, а в новом, оптимизированном под задачи машинного обучения bf16 — и вовсе 92,3 Тфлопс, причём, ускорители Instinct предыдущего поколения таких вычислений выполнять вообще не могут. В зависимости от типов данных, превосходство MI100 перед MI50 варьируется от 1,74х до 6,97x. Впрочем, NVIDIA A100 в этих задача всё равно заметно быстрее, а вот в FP64/FP32 проигрывают.

Постоянный URL: http://servernews.ru/1025502
16.11.2020 [17:00], Игорь Осколков

SC20: AMD Instinct MI100 — самый быстрый PCIe-ускоритель на базе новой архитектуры CDNA

AMD Instinct MI100 — первый ускоритель на базе 7-нм архитектуры CDNA, которая в отличие от RDNA ориентирована на вычисления, а не на графику, хотя и сохраняет некоторые компоненты для рендеринга. Тем не менее, пути RDNA и CDNA окончательно разошлись, и новый ускоритель предназначен исключительно для высокопроизводительных вычислений и ИИ.

Первенец серии MI100 имеет 120 CU, которые содержат новые блоки для матричных операций, которые важны в ИИ-нагрузках. Но работают они не в ущерб «классическим» вычислениям — пиковая FP64-производительность составляет 11,5 Тфлопс, а для FP32 ровно в два раза больше, 23 Тфлопс. Эти показатели выше, чем у NVIDIA A100, и AMD настаивает, что именно такой прирост производительности нужен для запланированного достижения заветной производительности в один экзафлопс.

AMD Instinct MI100

AMD Instinct MI100

Впрочем, на другом конце спектра, в bfloat16-вычислениях, новинка от AMD проигрывает — 92,3 Тфлопс против 312 Тфлопс на Tensor Core. Прочие приведённые значения производительности для других показателей точности вычислений варьируются. Кроме того, PCIe-версия A100 в силу более низкого энергопотребления на реальных задачах может быть несколько медленнее, чем SXM-версия. А Instinct MI100, пока во всяком случае, доступна только в форм-факторе полноразмерной PCIe-карты с потреблением на уровне 300 Вт.

Карта оснащена 32 Гбайт HBM2-памяти c пропускной способностью 1,23 Тбайт/с, что несколько меньше, чем у PCIe-версии NVIDIA A100: 40 Гбайт HBM2e и 1,555 Тбайт/с соответственно. У обеих карт есть основной интерфейс PCIe 4.0 x16 (64 Гбайт/с) и дополнительная шина для прямого обмена данными между ускорителями. В случае NVIDIA это NVLink (600 Гбайт/с), который для PCIe-версии ограничен только двумя картами, а в случае AMD — это Infinity Fabric (IF).

У MI100 есть три IF-интерфейса с пропускной способностью 92 Гбайт/c (суммарно 276 Гбайт/с), что даёт возможность объединить до четырёх ускорителей, которые могут общаться друг с другом по схеме каждый-с-каждым. Причём оно не зависит от того, по какому интерфейсу, PCIe 3.0 или 4.0, сами ускорители подключены к хосту. Естественно, наиболее оптимальным вариантом для системы в целом будет связка из AMD EPYC и новых MI100.

Основной же козырь AMD, как это зачастую бывало и ранее — это стоимость новинок. Точные цены компания не приводит, но говорит о том, что по показателю производительность на доллар они 1,8-2,1 раза лучше, чем NVIDIA A100. Среди первых систем, для которых сделана валидация новых ускорителей есть Dell PowerEdge R7525, Gigabyte G482-Z54, HPE Apollo 6500 Gen10 Plus, Supermicro AS-4124GS-TNR. Избранные партнёры уже получили новые ускорители и системы на их основе для оценки производительности и адаптации ПО.

Вместе с выходом Instinct MI100 AMD представила и новый мажорный релиз ROCm 4.0, открытой программной платформы для HPC и ИИ. AMD особо отмечает рост производительности, простоту использования и готовность множества программных решений к работе с новым релизом и новым же «железом». И главное — простоту портирования кода на новую платформу, в первую очередь с NVIDIA CUDA. У некоторых разработчиков на это ушло буквально от нескольких часов до одного дня, или до нескольких недель в более сложных случаях.

Новая программно-аппаратная платформа на базе AMD EPYC, Instinct M100 и ROCm 4.0 ляжет в основу грядущих суперкомпьютеров Frontier и Pawsey. А вот будут ли новые машины с MI100 в свежем рейтинге TOP500, мы узнаем уже завтра. Конкуренцию новинкам составят новые же ускорители NVIDIA A100 с удвоенным объёмом памяти HBM2e.

Постоянный URL: http://servernews.ru/1025425
06.03.2020 [12:57], Константин Ходаковский

AMD представила вычислительные графические архитектуры CDNA и CDNA2

Компания AMD на мероприятии Financial Analyst Day 2020 представила свою будущую архитектуру ускорителей вычислений — CDNA. Она дополнит графически-ориентированную архитектуру RDNA. В то время как RDNA создаётся для графических ускорителей Radeon Pro и Radeon RX, CDNA будет обеспечивать работу вычислительных ускорителей вроде Radeon Instinct.

AMD объясняет необходимость разделения RDNA и CDNA рыночной дифференциацией продуктов.

Центры обработки данных и HPC, использующие ускорители Radeon Instinct, не используют многие возможности графического рендеринга графического процессора. Таким образом, на уровне кремния AMD удалит растровые графические блоки, механизмы отображения и мультимедиа, а также другие связанные компоненты, которые занимают значительные площади кристалла. Вместо этого AMD добавит аппаратные блоки для тензорных вычислений, аналогичное тензорным ядрам в современных ускорителях NVIDIA.

AMD также упомянула использование в своих вычислительных ускорителях интерфейсов памяти HBM2e, межкомпонентное соединение Infinity Fabric в дополнение к PCIe и так далее. Компания подробно изложила краткий план развития CDNA на 2021-22 годы. Вычислительные ускорители текущего поколения компании основаны на устаревшей архитектуре Vega и представляют собой существенно переконфигурированные графические процессоры Vega 20, в которых отсутствует тензорное оборудование.

Позже в этом году компания представит свой первый ускоритель на базе 7-нм архитектуры CDNA, основанный на 7-нм техпроцессе с вычислительными блоками RDNA и тензорными ядрами для ускорения создания и обучения нейросетей. Где-то между 2021 и 2022 годами AMD представит свою обновлённую архитектуру CDNA2, основанную на «продвинутом техпроцессе» (либо 7-нм ULV, либо уже 5 нм).

Помимо увеличения показателя IPC, количества вычислительных блоков и прочего, основное внимание при разработке CDNA2 будет уделено гипермасштабируемости (способности масштабировать ГП в огромных пулах памяти, охватывающих тысячи узлов). Для этого AMD будет использовать Infinity Fabric 3-го поколения и унифицированную память с когерентным кешем.

Подобно Intel Compute eXpress Link (CXL) и PCI-Express 5.0, Infinity Fabric 3.0 будет поддерживать пулы разделяемой памяти между ЦП и ГП, обеспечивая масштабируемость, необходимую для огромных суперкомпьютеров вроде грядущих El Capitan и Frontier. Унифицированная память с когерентным кешем уменьшает ненужные передачи данных между связанной с ЦП памятью DRAM и связанной с ГП памятью HBM. Ядра ЦП смогут напрямую обрабатывать различные этапы последовательных вычислений операций на ГП, напрямую обращаясь к HBM и не загружая данные в свою основную память. Это значительно снизит нагрузку ввода-вывода.

El Capitan — это суперкомпьютер на базе чипов AMD, пиковая производительность которого после завершения строительства составит 2 экзафплопса (то есть 2000 петафлопс или 2 миллиона терафлопс). Он объединит процессоры AMD EPYC Genoa на основе архитектуры Zen 4 с ускорителями на базе CDNA2 и Infinity Fabric 3.0. El Capitan будет запущен в 2023 году, а вот Frontier мощностью 1,5 Эфлопс заработает уже в следующем.

Постоянный URL: http://servernews.ru/1005336
14.01.2020 [20:15], Алексей Степин

Компилятор AOMP для GPU AMD неожиданно получил сборки для IBM POWER

AMD внесла неожиданный вклад в развитие открытого программного обеспечения, продемонстрировав интерес к архитектурам, отличным от x86-64. 

Теперь компилятор AOMP, являющийся частью инициативы AMD Radeon Open Compute 3.0, доступен и для 64-бит процессоров IBM PowerPC. 

AOMP базируется на LLVM Clang, в котором поддержка PowerPC реализована уже давно, но всё же это заметный вклад с учётом того, какие надежды энтузиасты данной платформы возлагают на процессоры IBM POWER9, POWER10 и другие чипы, разрабатываемые на базе набора инструкций Power ISA.

Пока ускорение вычислений на этой платформе практически полностью принадлежит NVIDIA с её ускорителями Tesla V100 и T4, но появление AOMP прокладывает путь и для ускорителей AMD.

AOMP обеспечивает поддержку API OpenMP, открытого стандарта для распараллеливания программ на различных языках, таких, как C, C++ и Fortran. Стоит отметить, что в версии 0.7-6 реализована поддержка MI100. Это новый ускоритель семейства Radeon Instinct, который должен будет увидеть свет в этом году. Его основой станет новый процессор Arcturus, наследник Vega в сегменте профессиональных ускорителей AMD Radeon.

Что может означать столь явный интерес AMD к платформе POWER? Возможно, один из планируемых к запуску новых суперкомпьютеров будет базироваться именно на этой архитектуре и компания заранее стремится обеспечить себе возможность конкуренции с ускорителями NVIDIA. Но пока это лишь предположение.

Постоянный URL: http://servernews.ru/1001415
Система Orphus