Материалы по тегу: habana

17.11.2021 [19:49], Алексей Степин

Habana Labs, Supermicro и DDN представили платформу машинного обучения

Обучение сложных нейросетей, в отличие от запуска уже натренированных, требует огромных вычислительных ресурсов, включая специализированные ИИ-ускорители. Компания Intel, в своё время купившая стартап Habana Labs, такими ускорителями располагает и на днях объявила о доступности новой, готовой к использованию мощной платформы машинного обучения.

Процессоры Habana Gaudi изначально проектировались с прицелом на задачи машинного обучения, а вычислительная часть спроектирована с учётом вычислений, характерных для задач ИИ. При этом Gaudi — единственный сопроцессор подобного класса, располагающий встроенными 100GbE-контроллерами с поддержкой RoCE v2, что значительно упрощает развёртывание и масштабирование систем на его основе.

 Supermicro X12 Gaudi AI Training System

Supermicro X12 Gaudi AI Training System

Одной из первых сервер на базе ускорителей Gaudi представила Supermicro. X12 Gaudi AI Training System включает в себя пару процессоров Xeon Ice Lake-SP, но основной объём занимают модули Gaudi в формате OAM HL-205. Их в системе восемь, и каждый несёт на борту по 32 Гбайт памяти HBM2. Эти серверы стали основой суперкомпьютера SDSC Voyager.

Но это лишь часть платформы, представленной Intel: для полноценного обучения сложных сетей мало одних вычислительных ускорителей, огромные объёмы входных данных надо где-то хранить и эффективно ими управлять, не создавая «бутылочных горлышек». Поэтому вторым важным компонентом новой платформы стала новейшая СХД DDN AI400X2. Новая платформа Intel/Habana может поставляться в вариантах с одним, двумя или четырьмя серверами X12 и минимум одной AI400X2.

 DDN AI400X2

DDN AI400X2

DDN AI400X2 — новинка, пополнившая на днях серию решений DDN A3I и наследница AI400X. Один 2U-узел AI400X2 вдвое быстрее прошлого поколения и способен выдать 90 Гбайт/с. На случайных операциях производительность составляет 3 млн IOPS. Для того чтобы обеспечить такой поток данных, в системе используются NVMe SSD с поддержкой PCIe 4.0, суммарным объёмом до 720 Тбайт. Интересно, что данная СХД умеет использовать в своей ФС ExaScaler ресурсы клиентских узлов для хранения и дистрибуции самых «горячих» данных.

Поддерживаются также гибридные конфигурации с SSD и HDD, с автоматическим ранжированием данных, при этом HDD-часть может набираться отдельными дисковыми полками (до 22U) и предоставляет до 11,5 Пбайт. Весьма полезное качество, поскольку аналитики отмечают крайне быстрый рост объёмов данных, используемых для систем ИИ и машинного обучения. Причём более половины пользователей дополняют и переобучают свои ИИ-модели минимум раз в неделю.

 Один из вариантов развёртывания новой платформы

Один из вариантов развёртывания новой платформы

При необходимости, начав с минимальной конфигурации, платформу легко превратить в серьёзный кластер с сотнями и тысячами ускорителей, объединённый быстрой сетью с поддержкой RDMA. В качестве основного коммутатора DDN рекомендует модель Arista 7170-32C с 32 портами 100GbE, а в крупных масштабах и при необходимости развёртывания Gaudi-сети — Arista DCS-7060DX-32 с 32 портами 400GbE и производительностью 25,6 Тбит/с.

Платформа прошла валидацию для использования с ПО Habana SynapseAI и включает в себя оптимизированные docker-контейнеры для нагрузок TensorFlow и PyTorch. За управление отвечает фирменная система Software Vault, а портал Habana Developer и открытые GitHub-репозитории упростят ввод платформы в эксплуатацию.

Постоянный URL: http://servernews.ru/1053945
28.10.2021 [02:10], Владимир Мироненко

AWS представила инстансы EC2 DL1 с ИИ-ускорителями Habana Gaudi от Intel

AWS объявила — надо сказать, с существенной задержкой — об общедоступности инстансов Amazon EC2 DL1, предназначенных для задачи глубокого обучения. Инстансы DL1 используют ИИ-ускорители Gaudi от Habana Labs, которые, как утверждает Amazon, обеспечивает до 40 % более высокую производительность на единицу стоимости при обучения ИИ-моделей по сравнению с актуальными инстансами на базе GPU.

С помощью DL1 клиенты смогут быстрее и с меньшими затратами обучать крупные ИИ-модели для таких сценариев использования, как обработка естественного языка, обнаружение и классификация объектов, обнаружение мошенничества, механизмы рекомендаций и персонализации, интеллектуальная обработка документов, бизнес-прогнозирование и т.д. Новинки доступны как инстансы по требованию, по модели Savings Plans, а также как зарезервированные или спотовые инстансы.

DL1 имеют восемь ускорителей Gaudi с суммарным объёмом HBM-памяти 256 Гбайт, 768 Гбайт RAM, 96 vCPU (Intel Xeon Cascade Lake), 4 Тбайт локального хранилища NVMe и сетевое подключение 400 Гбит/с. Между собой ускорители объединены прямым RDMA-подключением 100 Гбит/с. Новинки поддерживаются в Amazon EKS/ECS и SageMaker. В настоящее время DL1 доступны в облачных регионах us-east (Северная Вирджиния) и us-west (Орегон), где стоимость dl1.24xlarge при почасовой оплате составляет $13,1/час.

Постоянный URL: http://servernews.ru/1052369
Система Orphus