Компания Lambda разработала GPU-кластер Echelon для ИИ-задач. Он включает в себя вычислительные ресурсы, хранилище, сеть, питание и поддержку, необходимые для решения крупномасштабных задач глубокого обучения.
Echelon использует стоечную архитектуру, которая хорошо масштабируется: от кластера с одной стойкой на 40 графических процессоров до кластера с тысячами графических процессоров в центре обработки данных.

Клиентам Lambda уже знакомы узлы в составе Echelon. Это серверы Lambda Hyperplane и Lambda Blade GPU. Вычислительные узлы Echelon были разработаны с учётом возможности использования InfiniBand HDR 200 Гбит/с или 100 Гбит/с Ethernet. Высокая скорость обмена данными позволяет выполнять широкомасштабное обучение языковых моделей и свёрточных нейронных сетей.

Кластер Echelon, разработанный для крупномасштабного распределённого обучения, может иметь до четырёх различных сетей:
- 200-Гбит/с фабрики HDR InfiniBand с RDMA для вычислительны узлов и хранилища.
- Внутрення сеть 100 Гбит/с.
- Сеть для управления узлами 1 Гбит/с.

Выше показана сетевая топология для кластера с одной стойкой с 40 графическими процессорами NVIDIA A100.