Растущая потребность в обработке чрезвычайно больших наборов данных является одним из основных стимулов создания систем высокопроизводительных вычислений (HPC) экзафлопсного уровня. Плоские иерархии хранилищ, встречающиеся в классических архитектурах HPC, уже недостаточно производительны. Многоуровневые иерархии могут устранить узкие места, но для максимального повышения производительности требуется тщательный контроль, чтобы избежать перегрузок и сбалансировать производительность вычислений и ввода-вывода (IO).
Соответствующие универсальные интерфейсы и методы для управления таким расширенным стеком ввода-вывод пока что отсутствуют. Проект ADMIRE запущен ЕС как раз с целью создания такого активного стека, который будет динамически реагировать на требования к вычислениям и хранению благодаря интеллектуальной глобальной координации, гибкости вычислений и ввода-вывода, а также планирования ресурсов хранения на всех уровнях иерархии хранения.
В проект, запущенный 1 апреля 2021 г, вовлечены 14 институтов из 6 европейских стран. Координацию осуществляет Университет Карлоса III в Мадриде (UC3M), а финансирование — консорциум EuroHPC JU и сами страны, участвующие в проекте. Сформированный бюджет проекта составляет €7,9 млн.
Главная роль в ADMIRE отводится четырём институтам Германии. Они будут работать над различными компонентами системы в течении ближайших трёх лет. Разработчикам необходимо будет создать программно определяемую структуру, основанную на принципах масштабируемого мониторинга и управления, разделенния уровней управления и передачи данных, а также оркестрации ключевых компонентов системы и приложений через встроенные точки управления.
Исследователи из Университет Иоганна Гутенберга в Майнце (JGU) займутся разработкой специальных (ad-hoc) систем хранения данных (СХД), которые будут динамически реагировать на решения, принимаемые ADMIRE. С помощью ad-hoc СХД можно будет снизить нагрузку на основную параллельную файловую систему, обеспечив при этом значительно более высокую пропускную способность для данных и метаданных. В основу работы будет заложена разработанная ранее файловая система GekkoFS с дополнениями для проекта ADMIRE, позволяющими удовлетворить семантические требования, требованиям к целостности и шаблонам доступа и т.д.
Технический университет Дармштадта (TU Darmstadt) разработает алгоритмы и инструменты для настройки ресурсов, используемых ПО во время выполнения таким образом, чтобы оптимизировать как время выполнения отдельных программ, так и вычислительную мощность системы в целом. Для этого он доработает свой инструмент моделирования производительности Extra-P, чтобы добавить возможность IO-моделирования для системы ADMIRE.
Суперкомпьютерный центр Юлиха (JSC) оптимизирует производительность ввода-вывода конвейеров обработки, которые ускорят доступ к данным и их анализ на всех этапах — от загрузки до получения конечных результатов. Это нужно для того, чтобы система могла обрабатывать огромные информации из различных источников в реальных сценариях работы.
Центр вычислений и данных Макса Планка (MPCDF) привнесёт в проект методы обработки данных на различных этапах (in-transit/in-situ), с помощью которых они могут, например, сжиматься и анализироваться по ходу текущего моделирования. Благодаря этому задачи, которые обычно выполняются только после завершения моделирования и сохранения данных в файл, смогут быть решены, всё ещё находясь в основной памяти, что значительно сокращает объём данных, которые в конечном итоге сохраняются.
Участники ожидают, что эти инструменты позволят существенно увеличить производительность как отдельных приложений HPC, так и пропускную способность системы в целом. Благодаря использованию преимуществ быстрых и энергоэффективных накопителей на уровне узлов, Европейских ad-hoc СХД и методов обработки данных in-transit/in-situ. Кроме того, расширенный стек ввода-вывода будет обеспечивать качество обслуживания (QoS) и отказоустойчивость.
Источник: