Материалы по тегу: ускоритель

13.05.2022 [21:05], Алексей Степин

Salience Labs получила $11,5 млн на разработку гибридного фотонного ИИ-сопроцессора с частотой 10+ ГГц

Интерес к использованию фотоники в вычислительных системах растёт, и пионеры в этой сфере получают довольно солидное финансирование, как это не столь давно произошло с Ayar Labs, в которую HPE и NVIDIA вложили $130 млн. Стартап Salience Labs на днях от Cambridge Innovation Capital и Oxford Science Enterprises гораздо более скромную, но всё же значимую сумму — $11,5 млн в первом раунде инвестиций.

 Изображения: Salience Labs

Изображения: Salience Labs

Образовалась Salience Labs совсем недавно, отпочковавшись от Оксфордского и Мюнстерского университетов в 2021 году. В штат компании вошли учёные, инженеры и программисты. Сейчас команда работает над созданием мультичипового процессора, объединяющего как традиционные электронные, так и фотонные компоненты. Причём последние, как раз ответственные за вычисления, стекируются вместе с SRAM. Более того, сделать это можно в рамках стандартного CMOS-процесса, что открывает путь к лёгкому масштабированию и относительно недорогому массовому производству.

Но и фотонная часть интересна сама по себе. Благодаря использованию широкополосного излучения, Salience Labs смогла уместить в один световой луч до 64 векторов, а уникальные схемы амплитудной модуляции позволяют, по словам компании, достичь частот в районе десятков гигагерц. Вкупе с массивно-параллельным подходом это позволит значительно ускорить расчёты (речь в первую очередь идёт о работе над матрицами).

Salience Labs надеется на скорейшую коммерциализацию своего решения, однако ей придётся побороться за место под солнцем. Так, фотонный ИИ-сопроцессор LightOn уже доступен для аренды, и он даже получил прописку в суперкомпьютере Jean Zay. Lightmatter, ещё один стартап в этой области, суммарно привлёк $113 млн в первых двух раундах инвестиций, а новичок Luminous Computing в раунде A получил сразу $105 млн.

Постоянный URL: http://servernews.ru/1065914
11.05.2022 [21:40], Игорь Осколков

Tachyum анонсировала универсальные процессоры Prodigy: 128 ядер с частотой 5,7 ГГц, которые втрое быстрее AMD EPYC 7763 и NVIDIA H100

Словацкая компания Tachyum официально представила серверные процессоры Prodigy, над которыми она трудилась несколько лет. По словам создателей, это первые в мире по-настоящему универсальные чипы, которые способны одновременно заменить CPU, GPU и TPU. Более того, Tachyum заявляет, что её процессоры не только быстрее всех остальных, но и дешевле и энергоэффективнее.

Универсальность Prodigy заключается в том числе в возможности запускать бинарные файлы, собранные для архитектур x86-64, Arm и RISC-V в дополнение к нативным для данной 64-бит ISA приложениям. Tachyum говорит, что её чипы подойдут для задач ИИ и HPC, а также будут привлекательными для гиперскейлеров. Тестовые образцы компания начнёт рассылать уже в этом году, а старт массового производства намечен на первую половину 2023-го. Кроме того, компания предлагает IP-блоки TPU для инференс-систем IoT/Edge.

 Изображения: Tachyum

Изображения: Tachyum

Старшая в семействе новых 5-нм CPU, которое включает восемь устройств, модель имеет 128 унифицированных ядер, работающих на частоте 5,7 ГГц. По предварительным данным, у каждого ядра есть по 64 Кбайт L1-кеша для данных и инструкций, а также 128 Мбайт L2+L3. В деталях об архитектуре и микроархитектуре новинок пока не рассказывается, но упоминается внеочередное исполнение и возможность выполнения до четырёх инструкций за такт, а также поддержка виртуализации и расширенных RAS-функций. У каждого ядра есть два 1024-бит векторных блока и один 4096-бит матричный блок.

 FPGA-эмулятор Tachyum Prodigy

FPGA-эмулятор Tachyum Prodigy

Процессор снабжён 16-ю контроллерами памяти с поддержкой модулей DDR5-7200 суммарным объёмом до 8 Тбайт. При этом есть возможность создавать двух- и четырёхпроцессорные системы. Связь с внешним миром обеспечивают 32 контроллера PCIe, которые суммарно дают 64 линии PCIe 5.0. TDP для данной модели не указывается, но компания говорит о возможности использования воздушного и жидкостного охлаждения.

Базовые характеристики впечатляют, но ещё более удивительными выглядят заявления разработчиков о производительности будущего флагмана. В SPECrate 2017 Int он примерно вчетверо быстрее Xeon Platinum 8380 и втрое быстрее EPYC 7763, старших моделей процессоров Intel и AMD текущего поколения. Более того, компания обещает, что FP64-производительность новинок будет втрое больше, чем у грядущих ускорителей NVIDIA H100, то есть составит порядка 180 Тфлопс.

А в FP8-вычислениях производительность будет выше, чем у H100, сразу в шесть раз — 24 Пфлопс! При этом новинки, со слов Tachyum, будут энергоэффективнее всех этих чипов. Для Prodigy заявлена поддержка форматов FP64, FP32, TF32, BF16, INT8, FP8 и некоего TAI, а также работа с т.н. разреженными (sparsed) вычислениями, которые важны для ИИ-нагрузок. Правда, пока что анонс можно назвать «бумажным», поскольку детальные характеристики чипов компания не предоставила, ограничившись лишь рассказами о том, как они хороши.

Тем не менее, о прогрессе разработки Tachyum докладывает регулярно. На текущий момент компания предлагает разработчикам аппаратный эмулятор на базе FPGA — всего 8 ядер Prodigy, но с возможностью масштабирования до 64 ядер. Этот эмулятор компания сама использует для отладки ПО. Она уже адаптировала ядро Linux и базовое окружение, UEFI, KVM/QEMU, GCC, а также успешно сделала порт FreeBSD для своей архитектуры.

Постоянный URL: http://servernews.ru/1065734
11.05.2022 [01:34], Алексей Степин

Представлены серверные ускорители Arctic Sound-M на базе архитектуры Intel Xe

На мероприятии Intel Vision компания Intel представила серверные ускорители на базе архитектуры Xe под кодовым названием Arctic Sound-M (ATS-M). Это довольно универсальные GPU, которые подходят для облачных игровых платформ, поставщиков медиаконтента, виртуальных рабочих мест, инференс-систем и видеоаналитики. Ускорители оптимизированы для обеспечения низкой совокупной стоимости владения (TCO). Ждать появления новинок на рынке можно уже в III квартале 2022 года.

 Изображения: Intel

Изображения: Intel

На момент анонса в новой серии представлено два ускорителя: полноразмерный вариант с 32 ядрами Xe и теплопакетом 150 Вт и компактный низкопрофильный, несущий на борту 16 ядер Xe, зато с теплопакетом всего 75 Вт. Обе карты имеют интерфейс PCIe 4.0 x16. Каждый из вариантов имеет на борту по четыре фирменных видеодвижка Xe, впервые в индустрии поддерживающих аппаратное кодирование видеопотока в формат AV1. Дополнительно новые ускорители имеют блоки ускорения трассировки лучей и блоки матричных вычислений Intel XMX. В качестве набортной памяти используется GDDR6.

Один ускоритель ATS-M может следующее:

  • Развивать до 150 Топс в инференс-режиме;
  • Транскодировать свыше 30 FullHD-видеопотоков или восемь — 4K;
  • Транслировать более 40 облачных игровых сессий;
  • Гибко распределять нагрузку между множеством VDI-сессий.

Отдельного упоминания заслуживает аппаратный AV1-кодер — новый стандарт при сохранении уровня качества изображения позволяет почти на треть снизить битрейт по сравнению с H.264, а значит, либо снизить требования к ширине канала, либо уместить в нём больше видеопотоков. При этом Intel ориентируется на открытые стандарты. В рамках проекта oneAPI/oneVPL будут поддерживаться все современные форматы сжатия видео (AV1, AVC, HEVC и VP9) и популярные фреймворки FFmpeg и GStreamer. Есть и open source наборы Open Visual Cloud.

Что касается организации виртуальных рабочих сред (VDI/DaaS), то и здесь ATS-M предлагает гибкое управление распределением ресурсов между множеством vGPU, причём с высоким уровнем гранулярности. Компания также отдельно отмечает, что использование аппаратных возможностей SR-IOV бесплатно и не требует дополнительного лицензирование — этот камень, похоже, направлен в огород NVIDIA.

Для инференс-систем новые ускорители тоже подходят, в особенности для ИИ-видеоаналитки, поскольку благодаря новым видеодвижкам узким местом стадия обработки входящего видеопотока не станет. Для работы с ускорителем Intel предлагает наборы openVINO и oneDNN, совместимые с TensorFlow и PyTorch.

Постоянный URL: http://servernews.ru/1065639
10.05.2022 [22:46], Игорь Осколков

Intel анонсировала ИИ-ускорители Habana Gaudi2 и Greco

На мероприятии Intel Vision было анонсировано второе поколение ИИ-ускорителей Habana: Gaudi2 для задач глубокого обучения и Greco для инференс-систем. Оба чипа теперь производятся с использованием 7-нм, а не 16-нм техпроцесса, но это далеко не единственное улучшение.

Gaudi2 выпускается в форм-факторе OAM и имеет TDP 600 Вт. Это почти вдвое больше 350 Вт, которые были у Gaudi, но второе поколение чипов значительно отличается от первого. Так, объём набортной памяти увеличился втрое, т.е. до 96 Гбайт, и теперь это HBM2e, так что в итоге и пропускная способность выросла с 1 до 2,45 Тбайт/с. Объём SRAM вырос вдвое, до 48 Мбайт. Дополняют память DMA-движки, способные преобразовывать данные в нужную форму на лету.

 Изображения: Intel/Habana

Изображения: Intel/Habana

В Gaudi2 имеется два основных типа вычислительных блоков: Matrix Multiplication Engine (MME) и Tensor Processor Core (TPC). MME, как видно из названия, предназначен для ускорения перемножения матриц. TPC же являются программируемыми VLIW-блоками для работы с SIMD-операциями. TPC поддерживают все популярные форматы данных: FP32, BF16, FP16, FP8, а также INT32, INT16 и INT8. Есть и аппаратные декодеры HEVC, H.264, VP9 и JPEG.

Особенностью Gaudi2 является возможность параллельной работы MME и TPC. Это, по словам создателей, значительно ускоряет процесс обучения моделей. Фирменное ПО SynapseAI поддерживает интеграцию с TensorFlow и PyTorch, а также предлагает инструменты для переноса и оптимизации готовых моделей и разработки новых, SDK для TPC, утилиты для мониторинга и оркестрации и т.д. Впрочем, до богатства программной экосистемы как у той же NVIDIA пока далеко.

Интерфейсная часть новинок включает PCIe 4.0 x16 и сразу 24 (ранее было только 10) 100GbE-каналов с RDMA ROcE v2, которые используются для связи ускорителей между собой как в пределах одного узла (по 3 канала каждый-с-каждым), так и между узлами. Intel предлагает плату HLBA-225 (OCP UBB) с восемью Gaudi2 на борту и готовую ИИ-платформу, всё так же на базе серверов Supermicro X12, но уже с новыми платами, и СХД DDN AI400X2.

Наконец, самое интересное — сравнение производительности. В ряде популярных нагрузок новинка оказывается быстрее NVIDIA A100 (80 Гбайт) в 1,7–2,8 раз. На первый взгляд результат впечатляющий. Однако A100 далеко не новы. Более того, в III квартале этого года ожидается выход ускорителей H100, которые, по словам NVIDIA, будут в среднем от трёх до шести раз быстрее A100, а благодаря новым функциям прирост в скорости обучения может быть и девятикратным. Ну и в целом H100 являются более универсальными решениями.

Gaudi2 уже доступны клиентам Habana, а несколько тысяч ускорителей используются самой Intel для дальнейшей оптимизации ПО и разработки чипов Gaudi3. Greco будут доступны во втором полугодии, а их массовое производство намечено на I квартал 2023 года, так что информации о них пока немного. Например, сообщается, что ускорители стали намного менее прожорливыми по сравнению с Goya и снизили TDP с 200 до 75 Вт. Это позволило упаковать их в стандартную HHHL-карту расширения с интерфейсом PCIe 4.0 x8.

Объём набортной памяти всё так же равен 16 Гбайт, но переход от DDR4 к LPDDR5 позволил впятеро повысить пропускную способность — с 40 до 204 Гбайт/с. Зато у самого чипа теперь 128 Мбайт SRAM, а не 40 как у Goya. Он поддерживает форматы BF16, FP16, (U)INT8 и (U)INT4. На борту имеются кодеки HEVC, H.264, JPEG и P-JPEG. Для работы с Greco предлагается тот же стек SynapseAI. Сравнения производительности новинки с другими инференс-решениями компания не предоставила.

Впрочем, оба решения Habana выглядят несколько запоздалыми. В отставании на ИИ-фронте, вероятно, отчасти «виновата» неудачная ставка на решения Nervana — на смену так и не вышедшим ускорителям NNP-T для обучения пришли как раз решения Habana, да и новых инференс-чипов NNP-I ждать не стоит. Тем не менее, судьба Habana даже внутри Intel не выглядит безоблачной, поскольку её решениям придётся конкурировать с серверными ускорителями Xe, а в случае инференс-систем даже с Xeon.

Постоянный URL: http://servernews.ru/1065645
09.05.2022 [22:26], Владимир Мироненко

Фото дня: ускоритель Intel Ponte Vecchio с низкопрофильным водоблоком

Микаэль Моро (Mikael Moreau), менеджер по связям с общественностью Intel в Западной Европе, опубликовал в Твиттере изображение ускорителя Intel Xe Ponte Vecchio с низкопрофильным водоблоком для отвода тепла. Напомним, что в конце апреля компания сообщила, что уже начала рассылать образцы серверных ускорителей Ponte Vecchio, предназначенных для приложений искусственного интеллекта (ИИ) и высокопроизводительных вычислений (HPC).

Грядущий флагманский ускоритель Intel Ponte Vecchio оснащён 63 тайлами, содержащими в общей сложности 100 млрд транзисторов. При потребляемой мощности 600 Вт OAM-модулю требуется эффективное охлаждение, которое будет осуществлять система с данным водоблоком. Ранее компания демонстрировала ускоритель с предсерийным водоблоком, но данная версия гораздо компактнее и имеет только один вход и выход для жидкости.

 Источник изображения: Twitter

Источник изображения: Twitter

Вместе с тем представитель Intel не пояснил, какой именно ускоритель Ponte Vecchio на снимке — базовый вариант или XT-версия, которая обеспечивает более высокую производительность, но отличается более высокими энергопотреблением и тепловыделением. Заявленный диапазон рабочих температур Ponte Vecchio составляет 65–81°C.

Постоянный URL: http://servernews.ru/1065584
05.05.2022 [20:17], Илья Коваль

Фото дня: ускоритель NVIDIA Hopper H100 в SXM-формате

Ресурс ServeTheHome опубликовал первые живые фотографии грядущего ускорителя NVIDIA H100 на базе новой архитектуры Hopper, который был анонсирован в марте и станет доступен в III квартале этого года. Отмечается, что компоновка платы стала намного более плотной в сравнении с предыдущими SXM-модулями и, в целом, совпадает с тем, что было показано ранее на официальных иллюстрациях.

Так, например, чип GPU (80 млрд транзисторов, техпроцесс TSMC N4) окружён шестью модулями, пять из которых являются HBM3-банками суммарной ёмкостью 80 Гбайт (5 × 16 Гбайт), а шестой нужен только для поддержки и выравнивания высоты. Объём памяти по сравнению с прошлым поколением ускорителей A100 не вырос, но вот пропускная способность поднялась до впечатляющих 3 Тбайт/с, то есть выросла в полтора раза.

 NVIDIA H100 (Фото: ServerTheHome)

NVIDIA H100 (Фото: ServeTheHome)

Также обращает на себя внимание иная компоновка коннекторов с обратной стороны платы. H100 получат не только поддержку PCIe 5.0, но и новый интерконнект NVLink 4.0, у которого, как и у памяти, пропускная способность тоже выросла в полтора раза быстрее, до 900 Гбайт/с. С остальными фотографиями новинки можно ознакомиться на сайте ServeTheHome.

Постоянный URL: http://servernews.ru/1065383
04.05.2022 [21:29], Алексей Степин

AMD предложила внедрить в процессоры EPYC ИИ-ускорители на базе FPGA Xilinx

Модульный подход к компоновке процессоров имеет как недостатки, так и преимущества. К первым относится ограниченность межъядерной коммуникации, а ко вторым — возможность легко регулировать количество чиплетов в процессорах, предназначенных для разных сегментов рынка. AMD пошла ещё дальше — теперь чиплеты получили уникальную возможность установки дополнительного кеша сверху основного кристалла (3D V-Cache в Milan-X), а вскоре появятся и чиплеты, включающие не только ядра CPU.

В попытках сделать как можно более универсальный процессор тоже видны два подхода. Intel уповает на инструкции AVX-512, которые получили расширения VNNI для работы с актуальными ИИ-нагрузками. А вскоре к ним добавится ещё и набор AMX. Базовый набор инструкций у AMD не менялся уже достаточно давно, но будущие EPYC вскоре тоже получат возможность работы с ИИ-задачам, как раз благодаря модульной компоновке. Новые патенты AMD говорят о сочетании CPU- и FPGA-чиплетов поглощённой ранее Xilinx в одной SoC.

 Изображения: AMD (via Tom's Hardware)

Изображения: AMD (via Tom's Hardware)

Патенты покрывают два способа интеграции новых кристаллов : либо добавлением нового чиплета по соседству с другими, либо использование 3D-стекинга как в случае с 3D V-Cache. В последнем случае возникают некоторые трудности с теплоотводом при размещении ускорителей непосредственно над CPU-чиплетами, поэтому AMD предлагает устанавливать новые чипы на IO-модуль.

Новые процессоры AMD EPYC, имеющие гетерогенную чиплетную архитектуру должны увидеть свет уже в 2023 году в поколении Zen 4 в виде 5-нм платформ Genoa (до 96 ядер) и Bergamo (128 ядер). И это только начало, ведь ничто не мешает использовать и другие виды чиплетов, от GPU и DPU до специфических DSP и даже ASIC. Впрочем, скорее всего, подобные чипы будут востребованы относительно небольшим числом клиентов или вообще будут создавать на заказ, как это ранее уже произошло с Intel.

Первые гибридные процессоры Xeon с FPGA компании Altera, которую Intel в итоге купила годом позже, были анонсированы ещё в 2014 году. По неофициальным данным, эти чипы создавались для обслуживания и ускорения работы СУБД Oracle. Следующая попытка была предпринята уже в поколении Skylake-SP. Тогда появился чип Intel Xeon Gold 6138P с ПЛИС Arria 10 GX 1150, соединённой с ядрами процессора посредством UPI. Одна из сфер его применение — телекоммуникации.

Постоянный URL: http://servernews.ru/1065294
26.04.2022 [17:12], Сергей Карасёв

Уникальный тысячеядерный RISC-V чип Esperanto ET-SoC-1 приглянулся Samsung

Стартап Esperanto Technologies сообщил о том, что сразу несколько крупных IT-игроков тестируют её уникальный ИИ-ускоритель ET-SoC-1. В их число, в частности, входит Samsung SDS, подразделение южнокорейского гиганта, специализирующееся на IT-решениях и услугах. В конце прошлого года Samsung уже представила концепт SmartSSD, который как раз задействует ET-SoC-1 для «умной» обработки данных непосредственно на накопителе.

Чип Esperanto ET-SoC-1 использует архитектуру RISC-V. Он содержит 1088 энергоэффективных ядер ET-Minion и четыре высокопроизводительных ядра ET-Maxion. Подробно об особенностях новинки можно узнать в нашем материале. Чип предназначен для решения сложных задач, связанных с ИИ и машинным обучением. Утверждается, что изделие обеспечивает более высокую энергетическую эффективность, нежели другие специализированные решения.

 Изображение: Samsung

Изображение: Samsung

Esperanto прямо не говорит, кто ещё, помимо Samsung SDS, тестирует решение. Отмечается лишь, что это «ведущие заказчики». Между тем Патрик Бангерт, вице-президент по ИИ-решениям в Samsung SDS, говорит, что его команда впечатлена результатами первых тестов ET-SoC-1: «Чип был быстрым, производительным и в целом простым в использовании. Кроме того, изделие продемонстрировало почти линейное масштабирование производительности в различных конфигурациях вычислительных ИИ-кластеров»

Аналитики Cambrian-AI Research также высоко оценили работу новинки в Resnet50, DLRM и BERT, отметив, что уровень энергопотребления укладывался в 20 Вт при максимальной рабочей частоте чипа. Отмечена и хорошая программная поддержка, которая позволит не только охватить будущие ИИ-нагрузки, но и потенциально позволит использовать ET-SoC-1 для других массивно-параллельных задач. Поскольку чип ориентирован на гиперскейлеров, качество ПО зачастую выходит на первый план.

Постоянный URL: http://servernews.ru/1064709
01.04.2022 [21:41], Владимир Мироненко

Meta* назвала ИИ-чипы Qualcomm Cloud AI 100 наиболее эффективными, но отказалась от них из-за проблем с ПО

Qualcomm, крупнейший в мире поставщик процессоров для мобильных устройств, заявил в 2019 году о намерении использовать свои наработки в области повышения энергоэффективности микросхем для выхода на быстрорастущий рынок чипов искусственного интеллекта, используемых в центрах обработки данных. Согласно данным The Information, чипмейкер пытался заинтересовать Meta* (Facebook*) в использовании своего первого серверного ИИ-ускорителя Qualcomm Cloud AI 100.

Осенью 2020 года Meta* сравнила его с рядом альтернатив, включая ускорители, которые она уже использует, и специализированный ИИ-чип собственной разработки. По словам источников The Information, чип Qualcomm показал лучшую производительность в пересчёте на Ватт, что позволило бы значительно снизить операционные расходы Meta*, чьи дата-центры обслуживают миллиарды пользователей. На масштабах в десятки тысяч серверов даже небольшое увеличение энергоэффективности приводит к экономии значительных средств.

 Источник: Qualcomm

Источник: Qualcomm

Однако энергоэффективность — это далеко не единственный фактор. Как утверждают источники The Information, весной прошлого года Meta* решила отказаться от использования чипа Qualcomm. По их словам, Meta* задалась вопросом, достаточно ли проработано программное обеспечение Qualcomm для того, чтобы можно было добиться максимальной производительности и будущих задачах компании. После оценки этого аспекта, Meta* отказалась от массового внедрения Cloud AI 100.

Наиболее полный спектр программно-аппаратных решений для ИИ-нагрузок сейчас предлагает NVIDIA, однако крупные гиперскейлеры обращаются к собственными разработкам. Так, у Google есть уже четвёртое поколение TPU. Amazon в конце прошлого года вместе с анонсом третьего поколения собственных CPU Graviton3 представила и ускорители Trainium для обучения ИИ-моделей, которые дополняют уже имеющиеся чипы Inferentia. У Alibaba тоже есть связка из собственных процессора Yitian 710 и ИИ-ускорителя Hanguang 800.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Постоянный URL: http://servernews.ru/1063227
23.03.2022 [01:10], Алексей Степин

Анонсирован ускоритель AMD Instinct MI210: половинка MI250 в форм-факторе PCIe-карты

AMD продолжает активно осваивать рынок ускорителей и ИИ-сопроцессоров. Вслед за сверхмощными Instinct MI250 и MI250X, анонсированными ещё осенью прошлого года, «красные» представили новинку — ускоритель Instinct MI210. Это менее мощная, одночиповая версия ускорителя с архитектурой CDNA 2, дополняющая семейство MI200 и имеющая более универсальный форм-фактор PCIe-карты.

Если Instinct MI250/250X существует только как OAM-модуль, то новый Instinct MI210 имеет вид обычной платы расширения с разъёмом PCI Express 4.0. Это неудивительно, ведь MI250 физически невозможно уложить в тепловые и энергетические рамки, обеспечиваемые таким форм-фактором, поскольку два чипа Aldebaran требуют 560 Вт против привычных для PCIe-плат 300 Вт. Для питания MI210 используется как слот PCIe, так и 8-контактный разъём EPS12V.

Поскольку ускоритель на борту новинки только один, она вдвое уступает MI250/250X по всем параметрам, но всё равно обеспечивает весьма неплохую производительность во всех форматах вычислений. Стоит отметить, что функциональные возможности MI210 не уменьшились. Осталась, например, поддержка Infinity Fabric 3.0 — соответствующие разъёмы расположены в верхней части карты, и она поддерживает работу в кластерном режиме из двух или четырёх ускорителей.

 AnandTech

Таблица опубликована AnandTech

В MI210 используется более простой вариант Aldebaran с одним кристаллом. Что интересно, по количеству вычислительных блоков этот вариант уступает более старому MI100 (104 CU против 120, 416 матричных ядер против 480). Однако последний использует первую итерацию архитектуры CDNA и работает на меньшей частоте — 1500 против 1700 МГц у новинки. В некоторых форматах вычислений MI100 может быть быстрее, но разница крайне незначительна.

 Производительность AMD Instinct MI210 в сравнении с NVIDIA A100 40GB PCIe

Производительность AMD Instinct MI210 в сравнении с NVIDIA A100 40GB PCIe

CDNA2 позволяет использовать уникальные форматы данных, вроде packed FP32, однако это требует поддержки со стороны разработчиков, что несколько затруднит создание универсального ПО, способного полностью задействовать возможности MI210. Но в первую очередь, это ускоритель, не «зажимающий» FP64-производительность: свыше 22 Тфлопс в векторных операциях и 45 Тфлопс — в матричных.

Сервер с одним или несколькими MI210 может использоваться в качестве универсальной платформы разработки ПО для суперкомпьютеров на базе более мощных ускорителей AMD Instinct MI250/250X. Новинка уже доступна у традиционных партнёров AMD по выпуску серверов, включая ASUS, Dell, HPE, Supermicro и Lenovo, которые также предлагают более мощные решения на базе MI250/250X.

Постоянный URL: http://servernews.ru/1062518
Система Orphus