Материалы по тегу: enflame

14.12.2021 [21:11], Владимир Агапов

Китайская Enflame выпустила новый ИИ-ускоритель Cloudblazer Yunsui i20

Компания Enflame, которая летом этого года представляла ускорители на базе второго поколения своих ИИ-чипов DTU, выпустила новый инференс-ускоритель Cloudblazer Yunsui i20 с чипом Suixi 2.5. Он изготовлен по 12-нм FinFET-техпроцессу GlobalFoundries и имеет обновлённую высокопроизводительную архитектуру вычислительных ядер GCU-CARE 2.0, благодаря чему, по словам создателей, удалось достичь эффективности, сопоставимой с массовыми 7-нм GPU.

В числе ключевых особенностей новинки компания отмечает возросшую вычислительную мощность, возможность исполнения тензорных, векторных и скалярных вычислений, API для C++ и Python, а также поддержку основных фреймворков и форматов моделей (TensorFlow, PyTorch, ONNX). Комплектное ПО предоставляет гибкие возможности для миграции с поддержкой технологий виртуализации, а также многопользовательских и многозадачных окружений с безопасной изоляцией процессов.

Yunsui i20 обладает 16 Гбайт памяти HBM2e с пропускной способностью до 819 Гбайт/c. Новинка поддерживает работу со всеми ключевыми форматами и предоставляет универсальную инференс-платформу, в том числе для облаков. Пиковая вычислительная FP32-производительность достигает 32 Тфлопс, TF32 (не уточняется, идёт ли речь о совместимости с NVIDIA) — 128 Тфлопс, FP16/BF16 — 128 Тфлопс, а INT8 достигает 256 Топс. По сравнению с первым поколением продуктов, Yunsui i20 увеличил FP-производительность в 1,8 раза, а INT-вычислений — в 3,6 раза.

Для сравнения — у PCIe-версии NVIDIA A100 производительность в расчётах FP32, TF32, FP16/BF16 и INT8 составляет 19,5, 156, 312 и 624 Тфлопс (Топс для INT), а объём и пропускная способность памяти равны 40/80 Гбайт и 1555/1935 Гбайт/с соответственно. У AMD MI100 объём HBM2-памяти равен 32 Гбайт (1,23 Тбайт/с), а производительность FP32, FP16 и BF16 равна 46,1, 184,6 и 92,3 Тфлопс соответственно. Все три ускорителя имеют интерфейс PCIe 4.0.

Значительный вклад в повышение производительности принесла оптимизация фирменного программного стека TopsRider, благодаря которой снизилась нагрузка на подсистему памяти. В результате средняя производительность исполнения моделей увеличилась в 3,5 раза, а эффективность использование вычислительной мощности — в среднем в 2 раза. Кроме того, новая модель программирования и технологии автоматизации позволяют ускорить эффективность разработки и снизить стоимость миграции моделей. В компании убеждены, что всё это сделает Yunsui i20 более конкурентноспособным решением.

Благодаря технологии виртуализации, Yunsui i20 можно разделить на 6 независимых, изолированных друг от друга доменов — такое ранее предлагала только NVIDIA. Вместе с другими продуктами, которые также полностью переведены на новое поколение ИИ-ускорителей, Enflame рассчитывает получить значимую долю рынка в таких инновационных секторах как умные города и цифровое правительство, а также в традиционных отраслях вроде финансов, транспорта и энергетики, где будут востребованы более совершенные решения на основе ИИ.

Несмотря на очевидные успехи, достигнутые командой Enflame и другими китайскими разработчиками — SoC от YITU Technology для глубокого обучения, IoT-чип Horizon Robotics Sunrise 2 с интегрированными ИИ-возможностями, Hanguang 800 от T-Head Semiconductor («дочка» Alibaba), серии Huawei Ascend и других — иностранные производители ИИ-чипов, по данным People's Daily, по-прежнему доминируют на китайском рынке с долей более 80%.

Постоянный URL: http://servernews.ru/1055887
25.08.2021 [22:39], Владимир Агапов

Enflame представила ИИ-ускорители CloudBlazer 2-го поколения на базе чипов DTU собственной разработки

Китайский стартап Enflame выпустил уже второе поколение ИИ-чипов Deep Thinking Unit (DTU 2.0), предназначенных для обработки больших объёмов данных в задачах машинного обучения. Реализованные в DTU подходы востребованы в облачных центрах обработки данных, предоставляющих услуги по глубокому обучению нейронных сетей. Деньги на разработку вложили правительство и отраслевые инвесторы, крупнейшим из которых стал интернет-гигант Tencent.

Несмотря на то, что чип DTU 2.0 был анонсирован только в июле, на сайте Enflame уже представлены изделия на его основе, позволяющие эффективно снизить затраты на ускорение ИИ-приложений, обеспечивая при этом лучшую производительность чем решения построенные на GPU. Впрочем, в случае Китая важна ещё и независимость от западных игроков. Пекин стремится к 2030 году стать мировым лидером в области ИИ и, по прогнозам отраслевых аналитиков, вложит не меньше $30 млрд. в связанные с этим исследования и разработки.

Ускоритель CloudBlazer T20, выполненный в виде PCIe-карты поддерживает работу с разнообразными моделями и сценариями обучения, а также обладает гибкими возможностями масштабирования и совместим с существующей экосистемой открытого ПО. Модуль CloudBlazer T21 обладает сходными функциональными возможностями, но выполнен в форм-факторе OAM. Согласно Enflame, в новом поколении чипов DTU 2.0 удалось заметно поднять производительность по сравнению с DTU 1.0, выпущенными пару лет назад. Также появилась и более скромная версия Cloudblazer i10 для задач инференса.

Если версия 1.0 обеспечивала до 20 Тфлопс FP32 и 80 Тфлопс FP16/BF16, то 2.0 предлагает уже до 40 Тфлопс FP32 и 160 Тфлопс FP16/BF16/TF32. Это соответствующим образом сказалось и на конечных изделиях, продемонстрировавших прирост скорости работы от 1,5 до 7,3 раз в различных вычислительных операциях. Производительность CloudBlazer T20 достигает 33 Тфлопс FP32 при энергопотреблении порядка 300 Вт, а CloudBlazer T21 демонстрирует 40 Тфлопс FP32 при потреблении в 400 Вт.

OAM-версия Enflame CloudBlazer T21

OAM-версия Enflame CloudBlazer T21

Увы, Enflame пока что не готова делиться подробностями о DTU 2.0. Компания сообщила лишь о том, что чипы получили память HBM2e, что дало трёхкратное увеличение пропускной способности и четырёхкратное увеличение ёмкости. Зато на Hot Chips 33 компания рассказала о DTU 1.0. Учитывая, что в новинке развиты идеи, заложенные в предыдущей версии, эта информация позволяет получить некоторое предварительное представление о ней.

DTU 1.0 — это система на кристалле (SoC), в состав которой входят 32 ИИ-ядра, собранных в четыре кластера, 40 движков передачи данных, четыре блока высокоскоростного интерконнекта, двухканальный контроллер памяти HBM2 с пропускной способностью до 512 Гбайт/c, а также интерфейс PCIe 4.0 x16. 1,25-ГГц чип, изготовленный по 12-нм нормам FinFET, содержит порядка 14,1 млрд. транзисторов и имеет TDP от 225 (PCIe) до 300 (OAM) Вт.

Каждое ядро (GCU-CARE 1.0) включает L1-кеш объёмом 64 Кбайт для инструкций и 256 Кбайт для данных, DMA-движок, общий ALU-блок, три регистровых файла и 256 тензорных блоков шириной 1024 бит. Оно способно одновременно выполнять четыре 16- или 8-бит MAC-операции или же одну 32-бит. Возможна и работа с FP64, но ценой существенного снижения производительности.

32 из 256 блоков могут выполнять общие скалярные и векторные операции, а 32, 64 или 128 можно задействовать для векторных MAC-операций. Но предполагается, что основными всё же будут тензорные и матричные операции, преимущественно свёртки. Особенность архитектуры в том, что, во-первых, в пределах ядра можно произвольно преобразовывать тензоры, а также выбирать их размерности, а, во-вторых, возможны параллельные вычисления над различными форматами данных.

Сами ядра имеют архитектуру VLIW, но компания не уточнят её особенности. Говорится лишь о том, что, в частности, ядро способно самостоятельно находить ненужные инструкции (например, при отличии в формате данных) и пропускать их. Для такой массивно-параллельной архитектуры реализован собственный движок (GCU-DARE 1.0) для асинхронного обмена данными и их преобразования из одного формата в другой на лету.

Масштабирование реализовано с помощью проприетарного интерконнекта GCU-LARE 1.0. Без кеш-когерентности, зато работающего на скорости 200 Гбайт/с в дуплексе — у каждого чипа есть по четыре 25-Гбайт/с LARE-линии. Внутри одного узла можно бесшовно объединить 8 или 16 ускорителей (мостиками и кабелями), получив задержку менее 1 мкс.

В одну стойку можно уместить до 64 ускорителей, а несколько стоек объединить в 2D-тор. Enflame утверждает, что даже при использовании 160 ускорителей в 20 шасси масштабирование производительности получается достаточно линейным и составляет в среднем около 85% от теоретического максимума. Это весьма важно для обучения массивных языковых моделей, которыми и занимаются ключевые заказчики Enflame.

Постоянный URL: http://servernews.ru/1047556
Система Orphus