Материалы по тегу: ornl

06.12.2023 [20:09], Руслан Авдеев

Министерство энергетики США выявило плохое обслуживание экзафлопсного суперкомпьютера Frontier

Управление генерального инспектора (OIG) Министерства энергетики США провело проверку ЦОД Национальной лаборатории Ок-Ридж, на базе которой работают передовые суперкомпьютеры, в том числе — первая в мире экзафлопсная система Frontier. Как сообщает The Register, результаты оставляют желать лучшего.

В сентябре прошлого года в OIG поступило заявление о необходимости проверки качества обслуживания и калибровки оборудования (в первую очередь речь температурных датчиках и автоматике систем охлаждения) на площадке лаборатории, расположенной в Теннеси. Лаборатория занимается проектами в области атомной энергетики и обеспечения национальной безопасности. Доклад по результатам проверки связан с ЦОД на площадке Ок-Ридж. В одном из кампусов находится центр Oak Ridge Leadership Computing Facility (OLCF), управляющий суперкомпьютером Frontier.

 Фото: ORNL

Фото: ORNL

Инспекция проводилась с января по сентябрь 2023 года и подтвердила данные поступившего регулятору заявления. Согласно докладу OIG, в заявлении сообщалось, что программа калибровки не соответствовала нормам, а предохранительные клапаны (PRV) в ЦОД или совсем не обслуживались, или обслуживались недобросовестно. Сбой работы клапанов мог привести к повышению давления выше допустимых пределов, что потенциально могло нанести вред как оборудованию, так и персоналу. Как сообщают в OIG, поскольку инфраструктура не обслуживалась должным образом, этом могло ограничить доступность вычислительных ресурсов и поставить под угрозу выполнение целей миссии лаборатории.

Управление вычислительными мощностями лаборатории выполняет некоммерческая организация UT-Battelle, созданная в 2000 году исключительно для контроля над площадкой Ок-Ридж в интересах Министерства энергетики при сотрудничестве с Университетом Теннесси и некоммерческим Мемориальным институтом Баттеля.

 Фото: ORNL

Фото: ORNL

В OIG заявляют, что программа обслуживания UT-Battelle не соответствовала необходимым требованиям. В самой UT-Battelle сообщили регулятору, что регулярная калибровка не нужна, поскольку каждый элемент оборудования калибруется при установке, а позже системы ЦОД постоянно контролируются субподрядчиком с помощью ПО, уведомляющего об инцидентах. В OIG подчёркивают, что хотя такая практика разрешена, всё ПО должно контролироваться с помощью специальной программы обеспечения качества, описывающей, каким именно образом соблюдаются требования к безопасности.

Однако лаборатория не смогла предоставить таких документов — в UT-Battelle фактически не знают, предоставляет ли ПО корректные данные. Кроме того, UT-Battelle не проверяла вовремя все воздушные клапаны, а почти половина клапанов для воды и теплоносителя не была протестирована и/или обследована в соответствиями с инструкциями. В некоторых случаях тесты проводили в соответствии с рекомендациями производителя, а не принятыми в лаборатории правилами. UT-Battelle заявляет, что процедура проверки сейчас пересматривается.

 Изображение: AMD

Изображение: AMD

В отчёте OIG подчёркивается, что в 2020 году уже проводилась аналогичная проверка, выявившая буквально те же проблемы. Хотя в некоторых аспектах положение улучшилось, требуются дальнейшие меры для приведения дел в порядок. При этом в UT-Battelle полностью признали правомерность рекомендаций и согласились разработать план обеспечения качества для мониторингового ПО и обеспечить работу и обслуживание PRV-клапанов в соответствии с актуальными процедурами и требованиями.

Постоянный URL: http://servernews.ru/1097052
14.04.2023 [12:07], Сергей Карасёв

Представлен новый суперкомпьютер Gaea C5 производительностью более 10 Пфлопс для исследования климата

Окриджская национальная лаборатория (ORNL) Министерства энергетики США и Национальное управление океанических и атмосферных исследований (NOAA) представили новую НРС-систему Gaea для проведения научных изысканий и моделирования в области климатологии.

Комплекс станет пятым суперкомпьютером, который будет установлен в Национальном вычислительном центре климатических исследований в составе ORNL. Ранее на этой площадке уже были развёрнуты четыре системы семейства Gaea. Новый суперкомпьютер получил обозначение C5.

 Источник изображения: ORNL

Источник изображения: ORNL

Полностью характеристики комплекса не раскрываются. Известно, что в основу положены узлы HPE Cray, а максимальная производительность составляет более 10 Пфлопс. Это практически вдвое превышает мощность двух предыдущих систем вместе взятых. В состав C5 входят восемь шкафов с современными процессорами. Причём один такой шкаф по производительности эквивалентен всей системе С3.

Изначально отгрузку компонентов суперкомпьютера C5 планировалось организовать осенью 2021 года. Однако дефицит комплектующих и сбои в каналах поставок привели к значительным задержкам. В итоге, оборудование было получено только летом 2022-го, после чего начались работы по его монтажу. Затем специалисты приступили к процессу тестирования и приёмки.

Постоянный URL: http://servernews.ru/1085016
08.04.2023 [23:19], Сергей Карасёв

700-Пбайт гибридное хранилище Orion суперкомпьютера Frontier доказало свою эффективность

Ресурс insideHPC обнародовал подробности об архитектуре подсистемы хранения данных суперкомпьютера Frontier, установленного в Окриджской национальной лаборатории (ORNL) Министерства энергетики США. Этот комплекс возглавляет нынешний рейтинг TOP500, демонстрируя производительность в 1,102 Эфлопс и пиковое быстродействие в 1,685 Эфлопс.

Сообщается, что система хранения Frontier носит название Orion. Она состоит из 50 шкафов с накопителями суммарной вместимостью приблизительно 700 Пбайт. Эти устройства хранения распределены по трёхуровневой схеме, включащей SSD, HDD и другие энергонезависимые решения, на базе которых развёрнуты ФС Lustre и ZFS. Данные возрастом более 90 дней автоматически перемещаются в архив.

 Источник изображения: ORNL

Источник изображения: ORNL

Один из уровней, производительный, объединяет 5 400 NVMe SSD, обеспечивающих ёмкость 11,5 Пбайт. Пиковые скорости чтения и записи информации достигают 10 Тбайт/с. Показатель IOPS (количество операций ввода/вывода в секунду) при произвольном чтении и записи превышает 2 млн. Второй уровень содержит 47 700 жёстких дисков (PMR). Их общая вместимость равна 679 Пбайт. Максимальная скорость чтения массива — 4,6 Тбайт/с, скорость записи — 5,5 Тбайт/с. В состав третьего уровня включены 480 устройств NVMe суммарной ёмкостью 10 Пбайт для работы с метаданными.

В целом, архитектура соответствует той, что была запланирована изначально. Однако теперь представитель ORNL подтвердил правильность выбранного гибридного подхода к хранению информации, отметив, что одна из выполняемых на суперкомпьютере задач генерирует 80 Пбайт в день и что ему не хотелось бы, чтобы из-за недостаточно быстрого хранилища столь мощная машина простаивала без дела.

Постоянный URL: http://servernews.ru/1084750
Система Orphus