Lambda Echelon — GPU-кластер под ключ для задач машинного обучения

 

Компания Lambda разработала GPU-кластер Echelon для ИИ-задач. Он включает в себя вычислительные ресурсы, хранилище, сеть, питание и поддержку, необходимые для решения крупномасштабных задач глубокого обучения.

Echelon использует стоечную архитектуру, которая хорошо масштабируется: от кластера с одной стойкой на 40 графических процессоров до кластера с тысячами графических процессоров в центре обработки данных.

Клиентам Lambda уже знакомы узлы в составе Echelon. Это серверы Lambda Hyperplane и Lambda Blade GPU. Вычислительные узлы Echelon были разработаны с учётом возможности использования InfiniBand HDR 200 Гбит/с или 100 Гбит/с Ethernet. Высокая скорость обмена данными позволяет выполнять широкомасштабное обучение языковых моделей и свёрточных нейронных сетей.

Кластер Echelon, разработанный для крупномасштабного распределённого обучения, может иметь до четырёх различных сетей:

  • 200-Гбит/с фабрики HDR InfiniBand с RDMA для вычислительны узлов и хранилища.
  • Внутрення сеть 100 Гбит/с.
  • Сеть для управления узлами 1 Гбит/с.

Выше показана сетевая топология для кластера с одной стойкой с 40 графическими процессорами NVIDIA A100.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.
Постоянный URL: https://servernews.ru/1028955

Комментарии

Система Orphus