Новые HPC-решения РСК на ISC 2020: узлы Tornado, универсальная СЖО и SDS Lustre

 

Компания, а вернее, группа компаний РСК (RSC) — ведущий российский производитель суперкомпьютерных систем, чьи решения активно используются в борьбе с COVID-19. К примеру, не столь давно кластер суперкомпьютерного центра Российской академии наук «МВС-10П ОП» был модернизирован и получил новые вычислительные узлы на базе Xeon Scalable второго поколения.

Мимо такого мероприятия, как конференция ISC High Performance 2020 столь серьезный производитель пройти не мог и приурочил к проходящему ныне мероприятию анонс своих новых решений — как аппаратных модулей для создания систем класса HPC, так и программных новинок.

Разработкой и созданием суперкомпьютеров РСК занимается давно и присутствует на рынке с 2009 года, на её счету ряд инновационных решений. Плотность вычислений продолжает расти, растут потребляемые мощности, и отвечая на требования рынка, РСК уделяет самое пристальное внимание вопросам энергоэффективности, надёжности и простоты управления.

В рамках программно-определяемой платформы нового поколения компания представила на ISC 2020 свои новые разработки: вычислительные и гиперконвергентные узлы RSC Tornado, новые системы питания и программный комплекс RSC BasIS.

Компания экспериментировала с такой экзотикой, как процессоры Intel Xeon 9200, являющиеся, по сути, двумя Xeon 8200 под одной крышкой. Они были показаны на прошлой конференции SC19. Эта разработка Intel весьма специфична, так что современные вычислительные модули RSC Tornado Compute Node базируются на хорошо зарекомендовавших себя процессорах Xeon Scalable второго поколения с теплопакетами до 205 Ватт. Это либо серия Xeon Platinum 8200, либо Gold 6200; о более интересных Xeon Scalable третьего поколения (Cooper Lake) речи пока не идёт — они были представлены Intel совсем недавно.

Каждый модуль оснащается двумя процессорами, четырьмя планками Optane DCPMM общим объёмом до 2 Тбайт, двумя накопителями NVMe на базе Optane, а также двумя более медленными NVMe-накопителями Intel P4511 E1.S объёмом 4 Тбайт. «Малая» сетевая подсистема представлена двумя портами 10GbE, «большая» — портом Intel OmniPath 100 Гбит/с, InfiniBand EDR/HDR, либо портом 100GbE на усмотрение заказчика. Габариты модуля хорошо видны на слайде, где для сравнения размещён обычный карандаш.

В системе 100% жидкостного охлаждения как и прежде используется «горячий теплоноситель», это позволяет достичь высокой энергоэффективности — коэффициент PUE для новых модулей RSC Tornado не превышает 1,04. Вычислительная стойка с новыми модулями развивает до 0,7 Пфлопс, располагая 2,4 Пбайт пространства для хранения данных и скоростью их передачи в районе 2 Тбайт/с.

Гиперконвергентные модули RSC Tornado Hyper-Converged Node выполнены в том же стиле, но оптимизированы с учётом максимизации объёмов хранения данных. Благодаря использованию «линеечных» SSD каждый такой модуль может вмещать до 24 Тбайт в 12 NVMe-накопителях E1.S с «горячей заменой». Доступна поддержка Intel Memory Drive Technology (IMDT) с памятью ёмкостью до 4,2 Тбайт.

В качестве процессоров здесь также используются Xeon Scalable второго поколения. Сетевая часть даже более гибкая, нежели у вышеописанных вычислительных модулей: высокоскоростных интерфейсов Omni-Path, InfiniBand или Ethernet может быть два. RSC Tornado Hyper-Converged Node дают до 0,345 Пфлопс на стойку, но при этом объём хранимых данных достигает 3,6 Пбайт при скоростях передачи данных до 1,5 Тбайт/с.

В рамках единой системы охлаждаются гиперконвергентные модули так же, как и их чисто вычислительные собратья, и эффективность такого охлаждения столь же высока. Конструкция унифицированной вычислительной 42U-стойки с единой системой жидкостного охлаждения, занимающей всего 0,64 м2, позволяет установить любые узлы РСК количеством до 153 шт. Блоки питания выполнены в том же форм-факторе, что и остальные узлы.

Даже 3,6 Пбайт на стойку может оказаться мало, и на этот случай РСК представила новые модули хранения данных. В них устанавливается до 32 накопителей Intel E1.L в формате EDSFF, поэтому легко достигаются объёмы порядка 1 Пбайт на узел. В пересчёте на стойку это дает до 42 Пбайт, производительность таких «дисковых модулей» может достигать 0,8 Тбайт/с. Для ускорения работы используются модули Intel Optane DCPMM.

РСК активно продвигает использование жидкостного охлаждения. Наряду с «горячим теплоносителем» в новых модульных системах компания впервые предлагает готовые модули модернизации для стандартных серверов, что позволяет их перевести на использование жидких теплоносителей. Новые водоблоки полностью совместимы с существующими креплениями и легко заменяют воздушные радиаторы.

Каждый водоблок РСК может отвести до 400 Ватт тепла. Системы жидкостного охлаждения разработки РСК позволяют удалить за пределы сервера до 70% всего выделяемого тепла, что даёт возможность отключить системные вентиляторы и снизить за счёт этого энергопотребление. Надёжность гарантирует и тот факт, что теплоносители, применяемые РСК в этих системах, электрически инертны и в случае утечки не повредят оборудование.

Комплекс охлаждения РСК состоит из водоблоков, модуля распределения теплоносителя (крепится к стандартной стойке), насосного модуля. На входе стойка потребляет жидкость с температурой от 45 до 55 градусов Цельсия, на выход идёт среда с температурой 55 градусов. Теплообменник в насосном блоке передаёт тепло (50 градусов) на внешний контур кондиционирования. На вход же от внешнего контура приходит носитель с температурой в районе 23 ‒ 45 градусов.

По сравнению с традиционными воздушными комплексами охлаждения говорится о снижении стоимости эксплуатации на величину до 70%. За счёт уменьшения количества вентиляторов в серверах и кондиционерах обеспечивается дополнительная экономия электроэнергии, а пространство в ЦОД используется более эффективно: там, где раньше можно было рассеивать до 12 киловатт тепла, теперь рассеивается до 50 кВт. Кроме того, имеется возможность использования выделяемого тепла для других целей, например, для отопления соседних помещений.

О непревзойденной эффективности речи не идёт, но 50 кВт на стойку — это выше, нежели у аналогичных открытых решений (36 кВт на стойку) или решений, используемых Большой Семёркой облачных провайдеров. Погружные системы и системы прямого контакта могут давать от 150 до 400 кВт на стойку, но либо стоят существенно дороже и требуют специального оборудования, либо гораздо сложнее в эксплуатации и обслуживании при сравнимом показателе PUE.

С совместимостью у новых систем распределения теплоносителя РСК всё хорошо: они могут работать как с водоблоками собственной разработки, так и с решениями Asetek и CoolIT, а также с любыми стоечными серверами стандартной конфигурации.

В программной части группа РСК представила новый программно-определяемый комплекс BasIS. Он может работать как на платформах самой РСК, так и на любом стандартном аппаратном обеспечении. Большое внимание уделено как эффективности нового ПО, так и удобству и простоте управления. Система BasIS легко масштабируется по мере наращивания количества вычислительных узлов.

Пространство для хранения данных пользователя выделяется динамически, в режиме «storage on demand». Основой является широко распространённая в мире высокопроизводительных вычислений открытая распределённая файловая система Lustre, впервые представленная ещё в 2003 году. «Lustre on demand» используется, например, в суперкомпьютере РСК, установленном в Объединённом институте ядерных исследований в Дубне.

Можно сказать, что группа РСК очень хорошо понимает требования к HPC-системам сегодняшнего дня и предлагает современные, универсальные и качественно спроектированные решения, как в аппаратной, так и в программной части.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источник:

Постоянный URL: https://servernews.ru/1014165
Поделиться:  

Комментарии

Система Orphus