Материалы по тегу: ornl

20.09.2024 [20:25], Руслан Авдеев

20 тонн HDD в труху — накопители хранилища Alpine уходящего на покой суперкомпьютера Summit отправили в измельчитель

По словам специалистов Национальной лаборатории Ок-Ридж (ORNL) Министерства энергетики США, суперкомпьютеры и их компоненты утилизируются точно так же, как и ненужная бумага — буквально отправляются в измельчитель. И совсем скоро сотрудникам лаборатории предстоит разобрать суперкомпьютер Summit, который морально устарел, хотя всё ещё входит в десятку самых производительных систем мирового рейтинга TOP500.

Summit хотели вывести из эксплуатации ещё в 2023 году, но из-за довольно высокой производительности пока решено оставить его в строю почти до ноября 2024 года в рамках программы SummitPLUS. Впрочем, часть комплекса уже модернизируется. Так, на смену хранилищу Alpine придёт Alpine 2. Данные из Alpine были переданы в другие СХД суперкомпьютерного центра Oak Ridge Leadership Computing Facility (OLCF). 19 ноября Alpine2 переключат в режим «только для чтения», а потом изменят конфигурацию хранилища для использования в других проектах.

Alpine, основанная на параллельной файловой системе IBM Spectrum Scale, создавалась для временного хранения данных Summit и других систем. По словам учёных, Summit строили для симуляции процессов в сверхновых и термоядерных реакторах и вряд ли где-либо ещё есть такая же концентрация жёстких дисков в одном месте, как в системах ORNL, за исключением, возможно, гиперскейлеров. Другими словами, даже разборка Alpine, которая началась ещё летом — чрезвычайно трудоёмкий процесс, поскольку накопители приходится извлекать вручную и по одному.

 Источник изображения: ORNL

Источник изображения: ORNL

Alpine состояло из 40 стоек на площади около 130 м2. Хранилище суммарной ёмкостью 250 Пбайт включало 32 494 HDD. Речь идёт о почти 20 т оборудования. Чтобы обеспечить по-настоящему безопасное удаление данных, HDD отвозят для физического уничтожения. За этот процесс отвечает компания ShredPro Secure. HDD буквально крошатся металлическими зубьями до небольших фрагментов. На переработку одного диска уходит приблизительно 10 с, а за день можно уничтожить до 3,5 тыс. накопителей. Полученные остатки окончательно утилизируются в рамках программы по переработке металла ORNL, так что лаборатория ещё и получает деньги за сдачу вторичного сырья.

Вывод из эксплуатации крупных вычислительных систем — постоянно совершенствуемый процесс, который с годами становится всё эффективнее. В последний раз крупное хранилище (Atlas) утилизировали в 2019 году, оно включало около 20 тыс. HDD. Утилизация своими силами заняла около 9 месяцев и оказалась очень дорогой. ShredPro Secure справилась гораздо быстрее, а сам процесс оказался гораздо дешевле. Поэтому компании в итоге отдали на уничтожение ещё около 10 тыс. HDD из других систем. Правда, теперь ORNL раздумывает над покупкой собственного измельчителя, чтобы дополнительно повысить безопасность и сэкономить ещё больше в долгосрочной перспективе.

Постоянный URL: http://servernews.ru/1111272
17.04.2024 [13:53], Сергей Карасёв

Разработчик квантовых компьютеров IonQ поможет в модернизации энергосистемы США

Компания IonQ, специализирующаяся на разработках в области квантовых вычислений, объявила о заключении соглашения о сотрудничестве с Окриджской национальной лабораторией (ORNL) Министерства энергетики США. Речь идёт об исследованиях, нацеленных на модернизацию американской энергосистемы.

Отмечается, что нагрузка на энергетическую инфраструктуру США постоянно растёт, что порождает необходимость её совершенствования. При этом требуются инновационные решения, которые помогут не только в оптимизации энергосети, но и в повышении безопасности и стабильности. Предполагается, что квантовые вычисления будут способствовать устранению существующих проблем.

В рамках сотрудничества ORNL инвестирует в квантовые системы IonQ. Квантовые системы быть значительно производительнее традиционных суперкомпьютеров при решении определённых задач. К ним, в частности, относятся исследования в сфере энергетики. «Модернизация энергосистемы США является приоритетом. Мы уверены, что квантовые технологии в конечном итоге повысят устойчивость, надёжность и безопасность соответствующей инфраструктуры», — говорит IonQ.

 Источник изображения: IonQ

Источник изображения: IonQ

Работа IonQ поддерживается проектом GRID-Q, который является частью Инициативы по модернизации энергосистем США (Grid Modernization Initiative), а также проектом ORNL Quantum Computing User Program, предусматривающим предоставление доступа к самым современным квантовым компьютерам для тестирования реальных приложений, таких как управление энергосистемами. Исследования IonQ и ORNL финансируются Министерством энергетики США.

Постоянный URL: http://servernews.ru/1103394
06.12.2023 [20:09], Руслан Авдеев

Министерство энергетики США выявило плохое обслуживание экзафлопсного суперкомпьютера Frontier

Управление генерального инспектора (OIG) Министерства энергетики США провело проверку ЦОД Национальной лаборатории Ок-Ридж, на базе которой работают передовые суперкомпьютеры, в том числе — первая в мире экзафлопсная система Frontier. Как сообщает The Register, результаты оставляют желать лучшего.

В сентябре прошлого года в OIG поступило заявление о необходимости проверки качества обслуживания и калибровки оборудования (в первую очередь речь температурных датчиках и автоматике систем охлаждения) на площадке лаборатории, расположенной в Теннеси. Лаборатория занимается проектами в области атомной энергетики и обеспечения национальной безопасности. Доклад по результатам проверки связан с ЦОД на площадке Ок-Ридж. В одном из кампусов находится центр Oak Ridge Leadership Computing Facility (OLCF), управляющий суперкомпьютером Frontier.

 Фото: ORNL

Фото: ORNL

Инспекция проводилась с января по сентябрь 2023 года и подтвердила данные поступившего регулятору заявления. Согласно докладу OIG, в заявлении сообщалось, что программа калибровки не соответствовала нормам, а предохранительные клапаны (PRV) в ЦОД или совсем не обслуживались, или обслуживались недобросовестно. Сбой работы клапанов мог привести к повышению давления выше допустимых пределов, что потенциально могло нанести вред как оборудованию, так и персоналу. Как сообщают в OIG, поскольку инфраструктура не обслуживалась должным образом, этом могло ограничить доступность вычислительных ресурсов и поставить под угрозу выполнение целей миссии лаборатории.

Управление вычислительными мощностями лаборатории выполняет некоммерческая организация UT-Battelle, созданная в 2000 году исключительно для контроля над площадкой Ок-Ридж в интересах Министерства энергетики при сотрудничестве с Университетом Теннесси и некоммерческим Мемориальным институтом Баттеля.

 Фото: ORNL

Фото: ORNL

В OIG заявляют, что программа обслуживания UT-Battelle не соответствовала необходимым требованиям. В самой UT-Battelle сообщили регулятору, что регулярная калибровка не нужна, поскольку каждый элемент оборудования калибруется при установке, а позже системы ЦОД постоянно контролируются субподрядчиком с помощью ПО, уведомляющего об инцидентах. В OIG подчёркивают, что хотя такая практика разрешена, всё ПО должно контролироваться с помощью специальной программы обеспечения качества, описывающей, каким именно образом соблюдаются требования к безопасности.

Однако лаборатория не смогла предоставить таких документов — в UT-Battelle фактически не знают, предоставляет ли ПО корректные данные. Кроме того, UT-Battelle не проверяла вовремя все воздушные клапаны, а почти половина клапанов для воды и теплоносителя не была протестирована и/или обследована в соответствиями с инструкциями. В некоторых случаях тесты проводили в соответствии с рекомендациями производителя, а не принятыми в лаборатории правилами. UT-Battelle заявляет, что процедура проверки сейчас пересматривается.

 Изображение: AMD

Изображение: AMD

В отчёте OIG подчёркивается, что в 2020 году уже проводилась аналогичная проверка, выявившая буквально те же проблемы. Хотя в некоторых аспектах положение улучшилось, требуются дальнейшие меры для приведения дел в порядок. При этом в UT-Battelle полностью признали правомерность рекомендаций и согласились разработать план обеспечения качества для мониторингового ПО и обеспечить работу и обслуживание PRV-клапанов в соответствии с актуальными процедурами и требованиями.

Постоянный URL: http://servernews.ru/1097052
14.04.2023 [12:07], Сергей Карасёв

Представлен новый суперкомпьютер Gaea C5 производительностью более 10 Пфлопс для исследования климата

Окриджская национальная лаборатория (ORNL) Министерства энергетики США и Национальное управление океанических и атмосферных исследований (NOAA) представили новую НРС-систему Gaea для проведения научных изысканий и моделирования в области климатологии.

Комплекс станет пятым суперкомпьютером, который будет установлен в Национальном вычислительном центре климатических исследований в составе ORNL. Ранее на этой площадке уже были развёрнуты четыре системы семейства Gaea. Новый суперкомпьютер получил обозначение C5.

Полностью характеристики комплекса не раскрываются. Известно, что в основу положены узлы HPE Cray, а максимальная производительность составляет более 10 Пфлопс. Это практически вдвое превышает мощность двух предыдущих систем вместе взятых. В состав C5 входят восемь шкафов с современными процессорами. Причём один такой шкаф по производительности эквивалентен всей системе С3.

 Источник изображения: ORNL

Источник изображения: ORNL

Изначально отгрузку компонентов суперкомпьютера C5 планировалось организовать осенью 2021 года. Однако дефицит комплектующих и сбои в каналах поставок привели к значительным задержкам. В итоге, оборудование было получено только летом 2022-го, после чего начались работы по его монтажу. Затем специалисты приступили к процессу тестирования и приёмки.

Постоянный URL: http://servernews.ru/1085016
08.04.2023 [23:19], Сергей Карасёв

700-Пбайт гибридное хранилище Orion суперкомпьютера Frontier доказало свою эффективность

Ресурс insideHPC обнародовал подробности об архитектуре подсистемы хранения данных суперкомпьютера Frontier, установленного в Окриджской национальной лаборатории (ORNL) Министерства энергетики США. Этот комплекс возглавляет нынешний рейтинг TOP500, демонстрируя производительность в 1,102 Эфлопс и пиковое быстродействие в 1,685 Эфлопс.

Сообщается, что система хранения Frontier носит название Orion. Она состоит из 50 шкафов с накопителями суммарной вместимостью приблизительно 700 Пбайт. Эти устройства хранения распределены по трёхуровневой схеме, включащей SSD, HDD и другие энергонезависимые решения, на базе которых развёрнуты ФС Lustre и ZFS. Данные возрастом более 90 дней автоматически перемещаются в архив.

 Источник изображения: ORNL

Источник изображения: ORNL

Один из уровней, производительный, объединяет 5 400 NVMe SSD, обеспечивающих ёмкость 11,5 Пбайт. Пиковые скорости чтения и записи информации достигают 10 Тбайт/с. Показатель IOPS (количество операций ввода/вывода в секунду) при произвольном чтении и записи превышает 2 млн. Второй уровень содержит 47 700 жёстких дисков (PMR). Их общая вместимость равна 679 Пбайт. Максимальная скорость чтения массива — 4,6 Тбайт/с, скорость записи — 5,5 Тбайт/с. В состав третьего уровня включены 480 устройств NVMe суммарной ёмкостью 10 Пбайт для работы с метаданными.

В целом, архитектура соответствует той, что была запланирована изначально. Однако теперь представитель ORNL подтвердил правильность выбранного гибридного подхода к хранению информации, отметив, что одна из выполняемых на суперкомпьютере задач генерирует 80 Пбайт в день и что ему не хотелось бы, чтобы из-за недостаточно быстрого хранилища столь мощная машина простаивала без дела.

Постоянный URL: http://servernews.ru/1084750
Система Orphus