Yandex B2B Tech (бизнес-группа «Яндекса», объединяющая технологии и инструменты компании для корпоративных пользователей, включая продукты Yandex Cloud и «Яндекс 360») открыла доступ к платформе собственной разработки для хранения и обработки больших данных YTsaurus.
YTsaurus поставляется как управляемое решение в Yandex Cloud, а также on-premises с поддержкой от разработчиков. Платформа обеспечивает хранение, обработку, аналитику данных и машинное обучение в едином окружении: файловая система, динамические таблицы и аналитические инструменты объединены для полного цикла работы с большими данными. Система поддерживает миллионы CPU и тысячи GPU в рамках единого кластера и десятки тысяч вычислительных узлов. Встроенный HDRF‑планировщик распределяет и балансирует вычислительные ресурсы между задачами пользователей.

Источник изображения: yandex.cloud
YTsaurus можно использовать как классическую MapReduce-систему, так и применять внутри платформы другие востребованные в профессиональной среде решения для обработки данных, в том числе ClickHouse и Apache Spark. C её помощью можно строить корпоративные хранилища данных, ETL-системы, обрабатывать как структурированные, так и неструктурированные или полуструктурированные данные, в том числе логи или финансовые транзакции.
В «Яндексе» YTsaurus разрабатывают с 2010 года — сейчас её используют для хранения данных большинства сервисов, обучения YandexGPT и других нейросетей, задач поискового индекса. Ранее платформа была доступна как open source-проект — её уже применяют большие технологические компании в России и за рубежом.
Источник: