В конце 2019 года мы рассказали читателям о проведённом совместно Суперкомпьютерным центром Сан Диего и Нейтринной обсерваторией Ice Cube астрофизическом эксперименте, впервые задействовавшим облачные службы в действительно серьёзных масштабах.
Тогда удалось нагрузить работой свыше 50 тысяч различных GPU-ускорителей в облачных платформах Amazon, Microsoft и Google Cloud, расположенных по всему миру. Совсем недавно завершился второй эксперимент, который ещё немного приблизил наступление эры облачных суперкомпьютеров.

Первый эксперимент показал, что обработка серьёзных массивов данных, полученных с крупнейшего в мире нейтринного детектора IceCube, возможна и с помощью облачных сервисов. Более того, развёртывание облачного суперкомпьютера оказалось весьма быстрой процедурой.
Второй эксперимент начался 4 февраля 2020 года, в нём были задействованы не использованные в первом опыте средства, полученные за счет гранта EAGER. Как и прежде, использовались ресурсы всех трёх ведущих облаков, однако на этот раз исследователи включили только самые эффективные инстансы и не ограничивали себя одними лишь облачными ресурсами.

Статистика мощностей (слева) и регионов во втором эксперименте
Вместо этого облачные ресурсы подключались к уже имеющимся в распоряжении экспериментаторов мощностям, доступным через научные сети OSD, XSEDE и PRP. За распределение нагрузки, впрочем, всё также отвечала система HTCondor. Основной целью было выяснить, можно ли удерживать производительность такой распределённой гибридной системы на длительных промежутках времени.
Эксперимент увенчался успехом: начавшись в 9:45 утра, он завершился примерно к 17:45 вечера, то есть, «облачный суперкомпьютер» проработал полный рабочий день. Довольно быстро исследователям удалось вывести систему «на плато», состоящее примерно из 15 тысяч ускорителей с общей производительностью порядка 170 Пфлопс (FP32).
Цели и задачи IceCube: нейтринная астрономия поможет нам лучше понять вселенную
Хотя «облачный кластер» и получился менее мощным, нежели в первом эксперименте, но за счёт времени работы удалось обработать на 50% больше данных — 151 тысяча замеров против 101 тысячи. Средств при этом было затрачено существенно меньше, всего около $60 тысяч. Данные поступали непосредственно с детекторов IceCube, для передачи использовался стандартный протокол HTTP. Удалось также выявить самое эффективное по параметру «цена/производительность» решение. Им оказались инстансы, оснащённые ускорителями NVIDIA Tesla T4.
Второй эксперимент показал, что «облачные суперкомпьютеры» могут задействоваться на протяжении длительных периодов времени и что развёртывать их можно практически в любой день. Также очевидно, что подобного рода решения вполне могут усиливать уже имеющиеся в распоряжении учёных вычислительные ресурсы, существенно ускоряя выполнение поставленной задачи.
Источник: