Crush — суперкомпьютер «для разминки» с AMD EPYC и Instinct MI250X

 

Национальная лаборатория Ок-Ридж (ORNL) нередко упоминается в новостных заметках, как активно тестирующая и внедряющая новые суперкомпьютерные технологии. В настоящее время в вычислительном центре OLCF (Oak Ridge Leadership Computing Facility) ведутся работы по установке первого в США экзафлопсного суперкомпьютера Frontier на базе процессоров и ускорителей AMD.

Сейчас же стал известен ряд архитектурных особенностей Frontier, поскольку в Национальном центре вычислительных исследований (National Center for Computational Sciences) вступил в строй малый кластер Crusher, в котором используются практически те же узлы HPE Cray, что и для Frontier. Система используется в качестве платформы раннего доступа и состоит всего из двух шкафов. В первом установлено 128 узлов, во втором 64. Суммарная пиковая производительность заявлена на уровне 40 Пфлопс.

Сердцем каждого узла является специальная версия AMD EPYC 7A53. 64 ядра (с SMT2) разбиты на четыре NUMA-домена, обслуживаемые отдельными контроллерами памяти. Восемь каналов DDR4 (всего 512 Гбайт на узел) обеспечивают пропускную способность 205 Гбайт/с. Ускорителей в системе всего четыре, но это новейшие двухчиповые AMD Instinct MI250X, так что системе они видны как восемь отдельных раздельных GPU.

Каждый из ускорителей подключён к одному NUMA-домену посредством двух каналов Infinity Fabric, обеспечивающих по 36 Гбайт/с в каждом направлении. Чипы внутри MI250X связаны с друг другом более скоростным каналом, дающим 200 Гбайт/с в обе стороны. Все ускорители связаны между собой по схеме «каждый с каждым» 50-Гбайт/с каналами. При этом они напрямую подключены к фабрике — каждому полагается свой адаптер HPE Slingshot (200 Гбит/с).

К CPU посредством PCIe-коммутатора подключена только пара SSD ёмкостью по 1,92 Тбайт (4 Гбайт/с на запись, 1,6 млн IOPS на случайных операциях). Каждый NUMA-домен разделён на два L3-поддомена, связанных с одним ускорителем, что позволяет гибко распределять нагрузку. В качестве основного хранилища выступает внешняя СХД IBM Spectrum Scale общей ёмкостью 250 Пбайт и пиковой скоростью 2,5 Тбайт/с.

 Будущий суперкомпьютер Frontier

Будущий суперкомпьютер Frontier

Есть у системы и доступ к сети NCSS, хотя и не прямой. В общем NFS-хранилище каждый проект может получить по 50 Гбайт со сроком хранения данных 90 дней, а в GPFS на Spectrum Scale доступно уже 50 Тбайт. Crusher снабжен большим количеством предустановленного ПО. Пользовательская среда модульная, построенная на базе системы Lmod, написанной на Lua. За распределение нагрузки отвечает Slurm. Для аутентификации используется аппаратный токен-ключ RSA SecurID.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.
Постоянный URL: https://servernews.ru/1058497

Комментарии

Система Orphus