Китайская компания Moore Threads, по сообщению ресурса VideoCardz, анонсировала специализированный ускоритель MTT S4000 для приложений ИИ и работы с большими языковыми моделями (LLM). Решение выполнено в виде двухслотовой карты расширения с интерфейсом PCIe 5.0 х16.
В основу изделия положена архитектура MUSA третьего поколения, подробности о которой не раскрываются. Есть 48 Гбайт памяти GDDR6 с пропускной способностью до 768 Гбайт/с. Реализована технология MTLink 1.0, которая позволяет объединять в одной системе несколько ИИ-ускорителей.
Как утверждает Moore Threads, новинка обладает производительностью до 25 Тфлопс на операциях FP32, до 50 Тфлопс на операциях TF32, до 100 Тфлопс на операциях FP16/BF16 и 200 TOPS на операциях INT8. Для сравнения: ИИ-ускоритель предыдущего поколения MTT S3000 несёт на борту 32 Гбайт памяти и обеспечивает пиковую производительность FP32 на уровне 15,2 Тфлопс. Таким образом, размер памяти увеличен на 50 %, тогда как быстродействие FP32 поднялось на 64 %.
Изделие MTT S4000 оснащено пассивным охлаждением. Предусмотрены четыре разъёма DisplayPort, что позволяет подключать мониторы. Заявлена возможность одновременной обработки до 96 видеопотоков в формате 1080p. Сопутствующие инструменты разработки USIFY позволяют полноценно использовать программное обеспечение NVIDIA на базе CUDA.
Ускорители Moore Threads MTT S4000 будут поставляться по отдельности и в составе систем Kuae, аналогичных NVIDIA DGX. Платформа Kuae MCCX D800 содержит восемь карт; возможно объединение таких серверов в кластеры. Говорится о поддержке различных LLM, таких как LLaMA, GLM, Aquila, Baichuan, GPT, Bloom, Yuyan объёмом до 130 млрд параметров.
Первые 1000 ускорителей MTT S4000 лягут в основу нового китайского кластера для ИИ-задач. Moore Threads отмечает, что китайский исследовательский институт Чжиюань посредством кластера с 1000 ускорителей смог обучить модель с 70 млрд параметров за 33 дня, тогда как для 130 млрд параметров потребуется 56 суток.
Источник: