Frontier, самый мощный суперкомпьютер США, всё ещё страдает от ежедневных аппаратных сбоев

 

Ресурс InsideHPC сообщил о проблемах, которые наблюдаются у экзафлопсного суперкомпьютера Frontier Окриджской национальной лаборатории (ORNL) на этапе тестирования в ходе подготовки к запуску «полноценных пользовательских операций», намеченному на январь следующего года. Frontier официально является самым быстрым суперкомпьютером в мире, хотя в Китае уже используют ряд экзафлопсных систем, которые не вошли в список TOP500.

Практически ежедневно у Frontier фиксируются аппаратные сбои. Как утверждает InsideHPC, это объясняется отсутствием стабильности в работе Frontier при выполнении ресурсоёмких рабочих нагрузок. Некоторые из проблем связаны с ускорителями AMD Instinct MI250X, которые несут большую часть вычислительной нагрузки. Ресурс ранее сообщал о проблемах с интерконнектом HPE Cray Slingshot 11, наблюдавшихся с конца прошлого до весны этого года, которые специалисты пытались решить до запуска бенчмарка HPL в мае, когда система преодолела отметку в 1 Эфлопс в FP64-вычислениях.

 Источник изображения: ORNL

Источник изображения: ORNL

Впрочем, Джастин Уитт (Justin Whitt), директор программы Oak Ridge Leadership Computing Facility (OLCF) считает, что не стоит драматизировать ситуацию, поскольку проблемы типичны для суперкомпьютерных систем, с которыми он имел дело при тестировании и настройке в лаборатории. Уитт отказался вдаваться в подробности по поводу сбоев, отметив, что они связаны с проблемами масштабируемости в сочетании с разнообразием приложений при выполнении «очень, очень больших заданий с использованием всей системы… и обеспечением согласованной работы всего оборудования».

По его словам, команда лаборатории работают над улучшением стабильности работы Frontier. «Среднее время наработки на отказ в системе такого размера составляет часы, а не дни. Поэтому вам нужно убедиться, что вы понимаете, что представляют собой эти сбои, и что у этих сбоев нет закономерностей, о которых вам нужно беспокоиться», — сообщил Уитт, добавив, что специалисты лаборатории занимаются настройкой программных сред, чтобы добиться максимальной производительности запускаемых приложений.

 Фото: AMD

Фото: AMD

По его словам, цель состоит в том, чтобы обеспечить пользователям возможность продуктивно проводить разнообразнейшие научные исследования. В настоящее время цель заключается в том, чтобы система работала без сбоев хотя бы несколько часов. «Мы не очень далеки от реализации нашей цели», — отметил он. Уитт также отказался обвинять ускорители Instinct в большинстве текущих проблем Frontier. «Проблемы охватывают множество разных категорий, GPU — только одна из них», — сообщил он.

«Я не думаю, что на данный момент нас сильно беспокоят продукты AMD. Мы имеем дело со многими вещами раннего периода, которые мы видели на других машинах, которые мы запустили, так что в этом нет ничего необычного», — говорит Уитт. Тем не менее, он отметил, что проблемы, имеющиеся у Frontier, «немного сложнее» чем у других суперкомпьютеров из-за масштаба системы, включающей 685 различных блоков. Всего же система насчитывает около 60 млн компонентов.

 Источник: HPC Wire

Источник: HPC Wire

Он также отметил, что ситуацию с подготовкой Frontier усугубили проблемы в цепочках поставок, связанные с пандемией, которые задержали работы по установке суперкомпьютера примерно на три месяца. Это, в свою очередь, задержало начало испытаний и настройки суперкомпьютера. Тем не менее, Уитт считает, что данное ранее обещание подготовить Frontier к выполнению пользовательских приложений к 1 января 2023 года вполне реально выполнить.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источник:

Постоянный URL: https://servernews.ru/1075565
Система Orphus