В облаке AWS появились инстансы Trn1 на базе фирменных ИИ-ускорителей Amazon Trainium для глубокого обучения

 

Облако AWS объявило о доступности инстансов EC2 Trn1, которые впервые были анонсированы в конце прошлого года. Утверждается, что Trn1 предлагают лучшее соотношение цены и производительности в облаке для решения комплексных задач глубокого обучения.

Инстансы базируются на ускорителях Trainium собственной разработки Amazon: это решение специально оптимизировано для высокопроизводительного глубокого обучения. Отмечается, что по сравнению с другими GPU-инстансами Trn1 обеспечивает 50-% сокращение затрат на обучение моделей. По сравнению с EC2 P4d инстансы Trn1 обеспечивают 1,4-кратное увеличение производительности для BF16-расчётов, 2,5-кратное повышение быстродействия для TF32 и 5-кратное — для FP32. Пиковая производительность Trn1 достигает 3,4 Пфлопс (TF32/FP16/BF16).

 Источник изображения: Amazon

Источник изображения: Amazon

В семейство EC2 Trn1 пока входят два типа Nitro-инстансов: trn1.2xlarge и trn1.32xlarge. В первом случае задействован один ускоритель Trainium, во втором — 16. Объём памяти HBM2e составляет соответственно 32 и 512 Гбайт. В составе trn1.2xlarge имеется локальный NVMe SSD ёмкостью 500 Гбайт, а trn1.32xlarge полагается сразу четыре NVMe-модуля на 2 Тбайт каждый. В старшем варианте ускорители связаны интерконнектом NeuronLink (768 Гбайт/с), а для самого инстанса предлагается EFA-подключение со скоростью до 800 Гбит/c. Младший вариант ограничен подключением 12,5 Гбит/с.

 Источник: Amazon

Ускорители AWS Trainium включают специализированные скалярные, векторные и тензорные движки, оптимизированные под задачи глубокого обучения. Поддерживается работа с различными типами данных, включая FP32, TF32, BF16, FP16 и UINT8. Кроме того, обеспечена совместимость с новым форматом cFP8, который хорошо подходит для крупных моделей. Аппаратно поддерживается функция стохастического округления. Наконец, AWS Trainium поддерживают и кастомные режимы работы с данными.

Возможно развёртывание Trn1 в кластерах EC2 UltraCluster с поддержкой до 30 000 ускорителей AWS Trainium для решения наиболее сложных задач. Архитектура кластеров предусматривает использование петабитной неблокированной сети и масштабируемого хранилища с низкой задержкой Amazon FSx for Lustre. Ускорители используют тот же набор AWS Neuron SDK, что и AWS Inferentia. Кроме того, новинки будут доступны для Amazon SageMaker, EKS, ECS и AWS Batch.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источник:

Постоянный URL: https://servernews.ru/1075639
Система Orphus