Обучение сложных нейросетей, в отличие от запуска уже натренированных, требует огромных вычислительных ресурсов, включая специализированные ИИ-ускорители. Компания Intel, в своё время купившая стартап Habana Labs, такими ускорителями располагает и на днях объявила о доступности новой, готовой к использованию мощной платформы машинного обучения.
Процессоры Habana Gaudi изначально проектировались с прицелом на задачи машинного обучения, а вычислительная часть спроектирована с учётом вычислений, характерных для задач ИИ. При этом Gaudi — единственный сопроцессор подобного класса, располагающий встроенными 100GbE-контроллерами с поддержкой RoCE v2, что значительно упрощает развёртывание и масштабирование систем на его основе.

Supermicro X12 Gaudi AI Training System
Одной из первых сервер на базе ускорителей Gaudi представила Supermicro. X12 Gaudi AI Training System включает в себя пару процессоров Xeon Ice Lake-SP, но основной объём занимают модули Gaudi в формате OAM HL-205. Их в системе восемь, и каждый несёт на борту по 32 Гбайт памяти HBM2. Эти серверы стали основой суперкомпьютера SDSC Voyager.
Но это лишь часть платформы, представленной Intel: для полноценного обучения сложных сетей мало одних вычислительных ускорителей, огромные объёмы входных данных надо где-то хранить и эффективно ими управлять, не создавая «бутылочных горлышек». Поэтому вторым важным компонентом новой платформы стала новейшая СХД DDN AI400X2. Новая платформа Intel/Habana может поставляться в вариантах с одним, двумя или четырьмя серверами X12 и минимум одной AI400X2.

DDN AI400X2
DDN AI400X2 — новинка, пополнившая на днях серию решений DDN A3I и наследница AI400X. Один 2U-узел AI400X2 вдвое быстрее прошлого поколения и способен выдать 90 Гбайт/с. На случайных операциях производительность составляет 3 млн IOPS. Для того чтобы обеспечить такой поток данных, в системе используются NVMe SSD с поддержкой PCIe 4.0, суммарным объёмом до 720 Тбайт. Интересно, что данная СХД умеет использовать в своей ФС ExaScaler ресурсы клиентских узлов для хранения и дистрибуции самых «горячих» данных.
Поддерживаются также гибридные конфигурации с SSD и HDD, с автоматическим ранжированием данных, при этом HDD-часть может набираться отдельными дисковыми полками (до 22U) и предоставляет до 11,5 Пбайт. Весьма полезное качество, поскольку аналитики отмечают крайне быстрый рост объёмов данных, используемых для систем ИИ и машинного обучения. Причём более половины пользователей дополняют и переобучают свои ИИ-модели минимум раз в неделю.

Один из вариантов развёртывания новой платформы
При необходимости, начав с минимальной конфигурации, платформу легко превратить в серьёзный кластер с сотнями и тысячами ускорителей, объединённый быстрой сетью с поддержкой RDMA. В качестве основного коммутатора DDN рекомендует модель Arista 7170-32C с 32 портами 100GbE, а в крупных масштабах и при необходимости развёртывания Gaudi-сети — Arista DCS-7060DX-32 с 32 портами 400GbE и производительностью 25,6 Тбит/с.
Платформа прошла валидацию для использования с ПО Habana SynapseAI и включает в себя оптимизированные docker-контейнеры для нагрузок TensorFlow и PyTorch. За управление отвечает фирменная система Software Vault, а портал Habana Developer и открытые GitHub-репозитории упростят ввод платформы в эксплуатацию.
Источник: