Провайдер Cloud.ru представил Evolution ML Inference — первый, по словам компании, в России управляемый облачный сервис для инференса больших языковых моделей (LLM), который позволит эффективно управлять вычислительными ресурсами. С его помощью клиенты смогут помимо моделей GigaChat от Cloud.ru запускать и развертывать собственные ИИ-модели, а также open source модели из библиотеки Hugging Face на базе облачных ускорителей.
Это полностью управляемый сервис — пользователю достаточно настроить конфигурацию, модель и тип масштабирования, Cloud.ru предоставит доступ к мощным ускорителям, а также будет отвечать за полное администрирование и обслуживание инфраструктуры. Сервис отличается простотой и гибкостью управления, что позволяет запускать модели без необходимости сборки образа напрямую из Hugging Face, а также запускать собственные образы со своим окружением.
Благодаря поддержке технологии Shared GPU, позволяющей распределять GPU-ресурсы с учётом потребления количества vRAM, необходимого для эффективной работы модели без задержек, а также с возможностью динамически перераспределять ресурсы в зависимости от текущих потребностей, сервис обеспечивает повышение утилизации мощностей в ИИ-проектах от 15 до 45 % в сравнении со сценарием, когда GPU используется целиком. Тем самым обеспечивается высокая степень адаптации и рациональное использование доступных ресурсов с одновременным запуском нескольких моделей на одном GPU.
«Это делает технологию наиболее оптимальной для распределённых систем с разнородной вычислительной инфраструктурой и помогает эффективно масштабировать нагрузку», — отметила Cloud.ru. Ещё одно отличие сервиса — поддержка режима скайлирования (эффективного масштабирования), когда оплата за использование модели начисляет только с момента обращения к ней.
По оценкам Cloud.ru, около 70 % заказчиков используют GPU-ресурсы, зарезервированные под инференс в процессе эксплуатации ML-моделей, менее чем на 55 %. При внедрении ИИ в большинстве случаев базой становится именно среда исполнения модели. Поэтому для рационального использования ресурсов и оптимизации затрат при обработке ИИ-нагрузок, особенно генеративного ИИ, необходима производительная инфраструктура с гибким масштабированием в реальном времени, отметил глава Cloud.ru.
Источник: