Материалы по тегу: ornl

01.10.2021 [15:19], Сергей Карасёв

В США началась сборка экзафлопсного суперкомпьютера Frontier

Вычислительный центр OLCF (Oak Ridge Leadership Computing Facility) Окриджской лаборатории Министерства энергетики США приступил к строительству комплекса Frontier — суперкомпьютера с экзафлопсной производительностью. Это важная веха в реализации американской программы по созданию HPC-систем нового поколения.

В проекте по разработке вычислительного комплекса Frontier участвуют специалисты HPE. Система объединит более 9000 узлов Cray EX, каждый из которых содержит один процессор AMD EPYC третьего поколения и четыре акселератора Radeon Instinct MI200. Задействован интерконнект Slingshot 11.

Здесь и ниже изображения ORNL/DOE

Здесь и ниже изображения ORNL/DOE

СХД суперкомпьютера состоит из двух основных компонентов: это внутрисистемное хранилище и распределённое хранилище Orion, использующее открытые решения Lustre и ZFS. В общей сложности в состав комплекса войдут около 6000 твердотельных накопителей и почти 48 тыс. жёстких дисков. Суммарная вместимость составит соответственно 10 Пбайт и 695 Пбайт.

Пиковое быстродействие Frontier, как ожидается, окажется на отметке 1,5 Эфлопс. Энергопотребление системы — приблизительно 29 МВт, или 19,33 МВт в расчёте на один Эфлопс, что делает её самой энергоэффективной системой подобного класса на текущий момент. Для охлаждения машины потребовалось почти 500 тыс. л теплоносителя и четыре насосных станции мощностью 350 л.с. каждая. Завершить ввод в эксплуатацию планируется в следующем году.

Постоянный URL: http://servernews.ru/1050370
19.07.2021 [13:15], Алексей Степин

Суперкомпьютер Frontier станет самой энергоэффективной системой экзафлопсного класса

Новый суперкомпьютер вычислительного центра Окриджской лаборатории Frontier должен вступить в строй к концу этого года и стать первой системой экза-класса в США. Хотя такая вычислительная производительность и означает многие мегаватты энергопотребления, OLCF рассказала, что благодаря новым технологиям будущий суперкомпьютер превзойдет раннюю оценку в 20 МВт на Эфлопс.

Физические законы невозможно обмануть и любая вычислительная система, кроме гипотетического обратимого процессора, неизбежно потребляет энергию и выделяет тепло. Но удельную энергоэффективность повышать можно и нужно. Ещё в 2008 году исследовательское агентство DARPA опубликовало любопытное исследование на эту тему.

Четыре проблемы: потребление, надёжность, параллелизм и перемещение данных

Четыре проблемы: потребление, надёжность, параллелизм и перемещение данных

На тот момент создание системы экза-класса уже было возможным на базе существующих технологий, но потреблять такая система стала бы гигаватт энергии; для сравнения, Новгородской области в том же 2008 году требовалось 3,55 ГВт. С учётом развития полупроводниковых технологий исследователи надеялись уложить Эфлопс в 155 МВт, а при самом агрессивном подходе даже 70 МВт.

Перемещение данных: главный пожиратель времени и энергии

Перемещение данных: главный пожиратель времени и энергии

Но и это было слишком большой цифрой, получить под которую финансирование было бы невозможно. Одно только энергопотребление такой системы обошлось бы в более чем $100 миллионов в течение пяти лет. В качестве реалистичной оценки, делающей экзафлопсные суперкомпьютеры реальными, была взята планка 20 МВт.

Также был озвучен и ряд других проблем, стоящих на пути к системам такого масштаба Одним из «бутылочных горлышек» стал бы интерконнект — в 2008 году ещё не было возможности «накормить» систему с такой степенью параллелизма без простоев вычислительных узлов. Время перемещения одного байта информации в подобной системе оказалось на порядки больше времени, затрачиваемого на сами вычисления.

Эволюция систем ORNL: от Titan к Frontier

Эволюция систем ORNL: от Titan к Frontier

С тех пор по меркам ИТ минула эпоха: утончались техпроцессы, стали популярными вычисления на GPU. Если суперкомпьютер Titan 2012 года имел соотношение ЦП к ГП 1:1, то уже в 2017 году с введением в строй его наследника Summit эта цифра выросла до 1:3, а в будущем Frontier она должна составить уже 1:4. На каждый процессор AMD EPYC придётся 4 ускорителя Radeon Instinct.

Само развитие микроэлектроники сделало возможным создание экзафлопсной системы, укладывающуюся в названную более 10 лет назад цифру 20 МВт. Сегодня никаких экзотических технологий и подходов к программированию для реализации проекта подобного масштаба не требуется. Увеличилась и плотность вычислений, и плотность хранения данных, и производительность сетевых подсистем — с 6,4 (Titan) до 100 Гбайт/с (Frontier) в последнем случае.

Развитие технологий позволит превзойти сделанные в 2008 году предсказания

Развитие технологий позволит превзойти сделанные в 2008 году предсказания

На данный момент потребление Frontier оценивается в 29 МВт, что несколько больше заявленной ранее цифры, но, напомним, 20 МВт было оценкой для 1 Эфлопс вычислительной мощности, Frontier же должен развивать более 1,5 Эфлопс, так что соотношение окажется даже лучше ранее предсказанного. Проблема с хранением и перемещением данных в новом суперкомпьютере будет решена за счёт широкого использования памяти типа HBM.

Эта оценка базируется на эффективности вычислений, составляющей 80% — 41,4 Гфлопс/Вт в режиме FP64, что выше наиболее энергоэффективных систем, для которых этот показатель составляет около 30 Гфлопс/Вт. Для сравнения можно взять сегодняшннего лидера TOP500, Arm-суперкомпьютер Fugaku. Его производительность составляет 442 Пфлопс, но потребляет он почти 30 МВт. В рейтинге Green500 он занимает 20 место. Полностью презентацию, посвященную истории экзафлопсных систем, можно посмотреть здесь.

Постоянный URL: http://servernews.ru/1044562
09.02.2021 [14:14], Алексей Степин

Ускорители AMD Instinct MI100 помогут изучить поведение галактик

Сегодня первое место в списке самых мощных на планете суперкомпьютеров занимает японский Fugaku, построенный на базе уникальных Arm-процессоров Fujitsu A64FX. Но времена его господства, похоже, продлятся недолго — в этом году будет запущен американский Frontier, который должен будет сместить с трона нынешнего короля супервычислений: сочетание AMD EPYC и ускорителей Instinct MI100 позволит ему преодолеть экзафлопсный барьер.

Как мы уже знаем, в основе ORNL Frontier лежит платформа HPE Cray EX. Каждый стандартный шкаф новой системы может содержать до 64 вычислительных модулей с двумя платами, несущими по два процессора AMD EPYC. Дополнят их ускорители AMD Instinct MI100, а в качестве интерконнекта будет использоваться Cray Slingshot. В отличие от Fugaku, Frontier относится к гетерогенным системам.

Суперкомпьютеры такой мощности позволят проводить исследования, недоступные учёным ранее. Одной из программ, разработанных в Ок-Ридже для Frontier, является CHOLLA. Речь идёт о комплекте специализированного программного обеспечения под общим названием «Computational Hydrodynamics on Parallel Architecture» (Вычислительная гидродинамика на параллельной архитектуре). Одна из ключевых областей применения такого ПО — астрофизика.

Структурная схема вычислительных модулей в MI100

Структурная схема вычислительных модулей в MI100

Использование мощностей Frontier позволит понять, как происходят изменения в галактиках, устроенных подобно нашему Млечному Пути, причём, увидеть эти изменения — образование, эволюцию и гибель отдельных звёзд в масштабах целой галактики — можно будет в достаточно высоком разрешении. Будет смоделировано поведение 10 тыс. кубических ячеек космического пространства (примерно 50 тыс. парсек) в течение 500 миллионов лет. Это первый проект вычислительной астрономии, имеющий столь серьёзные масштабы.

Проект CHOLLA, запущенный на Frontier, позволит понять поведение загадочной тёмной материи

Проект CHOLLA, запущенный на Frontier, позволит понять поведение загадочной тёмной материи

Интересно, что изначально программное обеспечение CHOLLA было рассчитано на платформу NVIDIA CUDA, но портирование на открытый аналог в лице AMD ROCm, оказалось очень простым. Как сообщает один из учёных Окриджской лаборатории, основную работу удалось проделать всего за несколько часов, а ведь речь о ПО, которое будет моделировать жизнь целой галактики. К тому же, производительность CHOLLA удалось без всяких оптимизаций поднять в 1,4 раза по сравнению с версией, выполняемой на NVIDIA Tesla V100. Оптимизированный вариант может оказаться ещё производительнее.

Постоянный URL: http://servernews.ru/1032230
22.12.2020 [13:52], Алексей Степин

Экзафлопсный суперкомпьютер Frontier получит 28-МВт питание, 500 тыс. л теплоносителя для СЖО и 110-тонный фальшпол

В начале года мы опубликовали заметку, посвящённую выводу из строя суперкомпьютера Titan, расположенного в Национальной лаборатории Ок-Ридж (ORNL) и успешно выполнившего 2,8 млн задач для науки. Titan отправился на заслуженный покой, а его место займёт суперкомпьютер Frontier мощностью 1,5 Эфлопс: в настоящее время уже начаты работы по его монтажу.

Если проект суперкомпьютера Aurora для Аргонноской национальной лабораторией столкнулся с задержками из-за проблем Intel с освоением 7-нм техпроцесса, то в случае с Frontier всё идёт по плану — первый американский суперкомпьютер экзакласса будет использовать именно решения AMD. Об этом проекте стало известно в мае 2019 года, когда AMD и Cray объявили о сотрудничестве.

Разместится Frontier в Национальной лаборатории Ок-Ридж (ORNL), в помещениях своего предшественника, Titan. Сама ORNL сообщила об успешном начале работ по переоборудованию инфраструктуры под новый суперкомпьютер. А работ потребуется немало, поскольку Frontier потребует существенно больших мощностей как по питанию, так и по охлаждению. Его масса также больше, что потребует укрепить силовые структуры помещения. Помещение, известное как комната E102, расположено в здании за номером 5600, имеет площадь свыше 1800 м2, и оно требует удаления всей старой инфраструктуры, включая полную замену фальшпола.

Если Titan потреблял около 10 МВт, то Frontier потребует почти 30 МВт, а система охлаждения должна будет отводить порядка 40 МВт тепловой энергии. В настоящее время новый, способный выдержать большие массы, фальшпол уже установлен, его масса составляет порядка 110 тонн. Ведутся работы по прокладке новых 24-дюймовых магистралей СЖО, способных прокачать около 19 тысяч литров жидкости в минуту. Общий же объём теплоносителя составит почти 500 тысяч литров (130 тысяч американских галлонов). За работу СЖО будут отвечать четыре насосных станции каждая мощностью 350 л.с. каждая.

Ранее пространство вокруг «комнаты 102» занимали офисы группы OLCF, но теперь там устанавливаются трансформаторы подсистем питания мощностью 28 мВт. Также пришлось изыскать место для градирен СЖО — для них был возведен новый фундамент в соседнем здании за номером 5800. В нём не прекращались научные исследования и, хотя в распоряжении проекта имелись данные о проложенных силовых линиях, было принято решение не рисковать и использовать георадары и сенсоры ЭМИ.

Архитектура вычислительного узла Frontier

Архитектура вычислительного узла Frontier

Несмотря на все трудности, проект Frontier пока развивается успешно. Как правило, такие HPC-системы требуют порядка двух лет на подготовку и монтаж. К тому же пандемия внесла свои коррективы — ранее ORNL уже была вынуждена объявить об обязательном тестировании всех работников на коронавирус. Несмотря на это, завершение работ намечено на весну 2021 года. Полномасштабный запуск Frontier в эксплуатацию произойдет не позднее 2022 года.

Коммутаторы Slingshot требуют довольно серьёзного охлаждения

Коммутаторы Cray Slingshot требуют довольно серьёзного охлаждения

Новый суперкомпьютер сможет поддерживать минимальную производительность на уровне 1,5 экзафлопс. В его состав войдёт более 100 стоек Cray Shasta, заполненных узлами на базе AMD EPYC Milan и ускорителей Radeon Instinct в соотношении 1 к 4. Для устранения потенциальных «бутылочных горлышек» каждый ГП в каждом узле получит свой сетевой порт Cray Slingshot, который обеспечит прямую связь между этими чипами. А программный комплекс, обеспечивающий работу Frontier, будет сочетать в себе технологии Cray Programming Environment и открытую платформу AMD ROCm. Подробнее о новом суперкомпьютере можно узнать на сайте ORNL.

Постоянный URL: http://servernews.ru/1028415
04.09.2020 [21:07], Илья Коваль

ORNL вкладывается в OpenACC для суперкомпьютеров с GPU AMD и NVIDIA

Ок-Риджская национальная лаборатория (Oak Ridge National Laboratory, ORNL), владелец одних из самых производительных суперкомпьютеров в мире, выделила средства на улучшение программной поддержки таких машин. В лаборатории есть Summit (IBM POWER + NVIDIA Volta), бывший лидер TOP500, который сейчас занимает второе место в рейтинге. А недавно был демонтирован Titan, место которого займёт Frontier (AMD EPYC + Radeon Instinct).

Актуальные машины, текущая и будущая, являются гетерогенными и при этом базируются на четырёх принципиально разных архитектурах. Желание ORNL упростить разработку и обеспечить переносимость кодов в этой ситуации понятно. Лаборатория сделала ставку на открытые стандарты и технологии и наняла Mentor Graphics, ныне дочернюю компанию Siemens, для улучшения набора компиляторов GCC. Естественно, все наработки будут выложены в открытый доступ (в силу лицензии), от чего выиграют и другие разработчики и пользователи HPC-систем.

Основной фокус будет на улучшении программирования GPU-ускорителей и упрощения переноса на них тяжёлых задач. Для это предполагается значительно улучшить в GCC поддержку OpenACC вкупе с реализацией последней версии OpenMP для распараллеливания программ. Кроме того, Mentor Graphics займётся имплементацией Fortran 2018 в GCC. Сумма контракта между ORNL и исполнителем не раскрывается.

Сроки исполнения также не указываются, но можно предположить, что работа должна быть по большей части завершена к моменту запуска суперкомпьютера Frontier в 2021 году. Кроме того, есть надежда, что финансы, полученные для реализации Frontier, помогут AMD развить собственные средства разработки для CPU и GPU, которые смогут в конечном итоге составить достойную конкуренцию программным продуктам Intel и NVIDIA.

Постоянный URL: http://servernews.ru/1019923
11.08.2020 [12:17], Юрий Поздеев

Суперкомпьютер Summit приглашает в виртуальный тур

Summit, второй по мощности суперкомпьютер в мире, теперь можно осмотреть, совершив виртуальный тур на 3D-платформе Matterport. В процессе виртуального путешествия можно «ходить» вокруг массивного суперкомпьютера по дата-центру Oak Ridge National Laboratory (ORNL) в штате Теннесси, США.

Несмотря на то, что этот суперкомпьютер в Top500 был недавно свергнут новой системой Fugaku от RIKEN, вычислительная мощность Summit (148,6 ПФлопс) по-прежнему ставит его на второе место в мире и на первое место в США. Эту мощность обеспечивают 4662 сервера IBM AC922, оснащенные процессорами IBM POWER9 и ускорителями на базе NVIDIA Volta. Недавно на базе Summit была проведена важная симуляция, направленная на поиск путей лечения вируса Covid-19 (SARS-CoV-2).

Summit не первый суперкомпьютер, доступный для виртуального тура, за последние месяцы подобные проекты были реализованы Hawk в Центре высокопроизводительных вычислений Университета Штутгарта (HLRS) и MareNostrum в Барселонском суперкомпьютерном центре (BSC). Некоторые суперкомпьютерные центры, такие как BSC, предлагают и физические туры, но из-за Covid-19 многие из этих туров были отменены. Summit, с другой стороны, никогда не был регулярно доступен для посетителей, что делает этот тур еще более редким.

До сих пор все три виртуальные тура проводились на платформе Matterport. В процессе тура пользователи могут перемещаться по коридорам и серверным шкафам, с управлением аналогичным Google Street View. Есть возможность взаимодействовать с различными объектами дата-центра, например, можно получить информацию о файловой системе Oak Ridge, узнать о победах в рейтинге Top500 ORNL, просмотреть сертификаты и многое другое.

Пользователи, которым требуется еще большее погружение, могут использовать встроенную возможность виртуальной реальности (при наличии соответствующей гарнитуры).

Вы можете отправиться в виртуальный тур по этой ссылке, используя только браузер, регистрация и какие-то дополнительные устройства не требуются.

Постоянный URL: http://servernews.ru/1017910
20.03.2020 [11:50], Константин Ходаковский

Самый быстрый в мире суперкомпьютер выявил соединения, которые могут остановить коронавирус

Пандемия коронавируса представляет собой беспрецедентную проблему для учёных: скорость, с которой распространяется вирус, означает, что специалисты должны ускорить свои исследования. Помощь в этом вполне могут оказать современные суперкомпьютеры вроде Summit от IBM, который считается самым мощным по рейтингу Top 500

Он использует почти 28 000 графических ускорителей NVIDIA Tesla V100, более 9 000 22-ядерных CPU IBM POWER9 и потребляет около 10 МВт энергии. 

Мы уже писали, что Summit был задействован для поиска соединений, которые могут эффективно остановить заражение клеток вирусом. Суперкомпьютер выявил 77 таких химических веществ. Это многообещающий шаг к созданию эффективного лекарства. Исследователи из Национальной лаборатории Ок-Риджа опубликовали свои выводы в журнале ChemRxiv.

Summit был создан IBM по заказу Министерства энергетики США в 2018 году с целью решения мировых проблем, которой он и служит сейчас. Summit смоделировал, как различные химические соединения могут препятствовать распространению коронавируса в клетках. Ранее Summit позволил выявить закономерности в клеточных системах, предшествующие болезни Альцгеймера; проанализировал гены, способствующие таким признакам, как зависимость от опиоидов; и предсказал экстремальные изменения в погоде на основе моделирования климата.

Вирусы заражают клетки-хозяев, вводя им молекулы ДНК или РНК со своим генетическим материалом. Работа Summit состоит в том, чтобы найти лекарственные соединения, которые могли бы препятствовать этому «впрыску» и потенциально остановить распространение болезни. Исследователь из Ок-Риджа Миколас Смит (Micholas Smith) создал модель коронавируса на основе исследований, опубликованных в январе. На суперкомпьютере он смоделировал, как атомы и частицы матричного белка коронавируса (спайк-белок, который играет ключевую роль в проникновении возбудителя в клетки организма и его воспроизведении внутри них) будут реагировать на различные соединения.

Суперкомпьютер запустил моделирование более 8000 соединений, которые могут связываться со спайк-белком и ограничивать его способность распространяться в клетках-хозяевах. Summit идентифицировал 77 эффективных соединений и оценил их в зависимости от вероятности блокирования спайк-белка.

Далее команда снова запустит моделирование на Summit, используя более точную модель спайк-белка коронавируса, которая была опубликована в этом месяце. Несмотря на всю свою мощь, Summit может лишь выявить перспективные соединения. Затем необходимо провести экспериментальные исследования, чтобы доказать на деле, какие вещества работают лучше всего.

«Наши результаты не означают, что мы нашли лекарство от коронавируса или лечение от него», — сказал, директор Национального центра молекулярной биофизики Университета Теннесси в Ок-Ридже Джереми Смит (Jeremy Smith). Но полученные данные могут послужить основой для будущих исследований. И последние необходимы для создания наиболее эффективной коронавирусной вакцины, до создания которой пройдёт минимум год.

Постоянный URL: http://servernews.ru/1006417
07.03.2020 [12:06], Владимир Мироненко

Самый мощный в мире суперкомпьютер Summit задействовали для поиска средств излечения от коронавируса

Исследователи из Национальной лаборатории Ок-Ридж (ORNL) использовали самый мощный в мире суперкомпьютер Summit для определения 77 низкомолекулярных лекарственных соединений, которые могут быть полезны для дальнейших исследований в борьбе с коронавирусом SARS-CoV-2, ответственным за вспышку инфекции COVID-19.

Два исследователя — Джереми С. Смит (Jeremy C. Smith) и Михолас Смит (Micholas Smith) — выполнили моделирование на суперкомпьютере Summit с более чем 8000 соединений для отбора тех, которые с наибольшей вероятностью могут связываться с основным шиповидным белком коронавируса, чтобы сделать его неспособным инфицировать клетки-хозяева.

Исследователи оценили соединения, представляющие интерес, которые могут иметь значение в экспериментальных исследованиях вируса, и опубликовали результаты в ChemRxiv.

Идея родилась из возникшего интереса к тому, как проникает коронавирус в клетки-хозяева. Когда китайские исследователи установили генетическую связь последовательности его генома, они обнаружили, что он заражает организм с помощью одного из тех же механизмов, что и вирус острой респираторной недостаточности, или вирус атипичной пневмонии, который распространился в 26 странах во время эпидемии в 2003 году. Сходство между двумя структурами вируса облегчило изучение нового коронавируса. Джереми С. Смит (Jeremy C. Smith), профессор Университета штата Теннесси (Юта) и директор Центра молекулярной биофизики UT / ORNL, исходил из того, что два вируса могут даже проникать в клетку одинаковым путём.

Учёным предоставили время для работы на суперкомпьютере Summit, базирующемся на тысячах процессоров NVIDIA Tesla V100 Tensor Core и IBM POWER9. Суперкомпьютер Summit способен выполнять 200 квадриллионов вычислений в секунду — вычислительная мощность примерно в миллион раз больше, чем у среднего ноутбука.

Михолас Смит использовал программный пакет GROMACS, оптимизированный для графического процессора, для выполнения молекулярно-динамического моделирования, которое анализирует движения атомов и частиц в белке. Он производил моделирование стыковки различных соединений с S-белком коронавируса, чтобы определить, может ли какое-либо из них предотвратить его прилипание к клеткам человека.

После того как на сайте Science была опубликована высокоточная модель S-белка, команда учёных планирует вновь провести исследование с использованием этой новой версии.

«Summit потребовался, чтобы быстро получить необходимые результаты моделирования. Это заняло у нас день или два, тогда как на обычном компьютере это заняло бы месяцы, — отметил Джереми Смит. — Полученные результаты не означают, что мы нашли лекарство или способ лечения от уханьского коронавируса. Тем не менее, мы очень надеемся, что результаты вычислений послужат основой для будущих исследований, и экспериментаторы будут использовать их для дальнейшего изучения этих соединений».

Постоянный URL: http://servernews.ru/1005387
02.03.2020 [16:31], Алексей Степин

Прощание с Титаном: как уходят суперкомпьютеры

Обычные компьютеры устаревают — и то же самое касается и суперкомпьютеров. Правда, процесс вывода из эксплуатации в последнем случае гораздо сложнее, хотя бы в силу масштаба. Пришла пора отправляться на покой и заслуженному ветерану Titan, машине, которая за годы своего существования в Национальной лаборатории Ок-Ридж (ORNL) выполнила 2,8 млн заданий для учёных со всего земного шара.

Национальная лаборатория Ок-Ридж

Национальная лаборатория Ок-Ридж

Полностью система называлась Cray XK7 Titan. Она занимала 200 серверных шкафов и имела гибридную архитектуру. В этом смысле Titan стал первым суперкомпьютером в мире, сочетавшем в себе в себе 16-ядерные процессоры AMD Opteron 6274 и ускорители NVIDIA Tesla K20. Общий объём оперативной памяти составлял 700 Тбайт, а дискового хранилища — 40 Пбайт. Titan стал первым суперкомпьютером в мире, перешагнувшим планку производительности 10 Пфлопс, а на пике своего могущества развивал 27 Пфлопс.

Зал, где располагался Titan

Зал, где располагался Titan

Семь лет Titan служил верой и правдой науке, а многие сотрудники лаборатории OLCF даже успели к нему привязаться, так что день отключения был для них грустным событием. Демонтаж потребовал серьёзного совместного планирования со стороны ORNL, Cray и Regency Technologies — не так-то просто убрать 200 стоек с вычислительным оборудованием, занимающим 836 квадратных метров, а ведь есть ещё кабельная инфраструктура и системы охлаждения, в которых, между прочим, находилось 4,5 тонны хладагента R134a.

Прощание с ветераном GPGPU

Прощание с ветераном GPGPU

Только на слив охлаждающей жидкости пришлось затратить три дня, после чего, наконец, можно было начинать демонтаж. Первым делом были отключены все цепи питания, затем заблокированы контуры охлаждения в помещении (ведь во втором контуре Titan циркулировала вода). Следующим шагом стало отключение подпольной кабельной инфраструктуры, как оптической, так и медной. Наконец, со шкафов сняли «шляпы» — теплообменники систем охлаждения. Начался вывоз самих шкафов.

Процесс демонтажа в ускоренном времени

В течение 23 дней 8 сотрудников Cray загрузили 195 тонн оборудования на 140 палет в 15 трейлеров — и Titan отправился в последний путь, занимающий почти 1000 миль. В Даллас, штат Техас, где расположены перерабатывающие предприятия Regency, используемые Cray в своей программе Take-Back. Там была начата разборка самих шкафов и других крупных компонентов системы с последующей сортировкой материалов.

AMD Opteron 6274: 16 ядер Bulldozer/Interlagos, 2,2 ГГц, 115 Ватт TDP

AMD Opteron 6274: 16 ядер Bulldozer/Interlagos, 2,2 ГГц, 115 Ватт TDP

Сталь, медь и алюминий отправились обратно в металлургическое производство, пластик — в переработку. Все сложные компоненты, включая процессоры, ускорители и другие печатные платы прошли специальную обработку, дабы извлечь из них ценные металлы, такие, как золото и платина. К сожалению, единственным ценным компонентом Titan, не подвергшимся тотальному уничтожению, осталась память. По мнению Cray, процессоры и специфические ускорители NVIDIA просто не представляли рыночной ценности; впрочем, часть ускорителей отправилась в запасники суперкомпьютера XE6.

Узел Cray XK7: четыре Opteron, четыре K20

Узел Cray XK7: четыре Opteron, четыре K20. Фото AnandTech

Зачем был нужен демонтаж? Ответ на этот вопрос не так прост: даже на момент вывода из строя Titan обладал солидной мощностью и занимал 12 место в списке самых мощных суперкомпьютеров планеты. Но стоимость его эксплуатации оказалась слишком высокой. В отличие от более современных систем, машина использовала три разных системы охлаждения, включая кондиционирование воздуха.

Уровень энергопотребления также был слишком высоким — в среднем от 4 до 6 мегаватт, чего достаточно для питания более 3000 домов. Мало кто может позволить себе такие счета за электричество. В итоге переработка в соответствии со стандартом Responsible Recycling (R2) стала лучшим решением, поскольку простое захоронение электроники, тем более в таких масштабах, недопустимо. Впрочем, в Индии, например, одну из демонтированных машин Cray когда-то в буквальном смысле закопали в землю. 

Эволюция суперкомпьютеров ORNL

Эволюция суперкомпьютеров ORNL

В настоящее время помещение, где располагался герой нашей заметки, проходит ремонт и модернизацию — в нём будет смонтирован новый суперкомпьютер Frontier. Подвесной потолок будет удалён, поскольку потребуется монтаж новой системы электропитания. Фальшпол будет поднят и усилен, под ним пройдут трубы новой системы охлаждения. Закончить работы предполагается к весне 2021 года.

В новой системе Frontier по-прежнему будут использоваться процессоры AMD, на этот раз, заказные модели EPYC, а вот место ускорителей NVIDIA займут специализированные AMD Radeon Instinct. В итоге производительность системы обещает превысить 1,5 экзафлопса и Frontier станет крупнейшим в истории контрактом Cray.

Постоянный URL: http://servernews.ru/1004978
22.11.2017 [13:00], Иван Грудцын

Суперкомпьютер Summit: подробности о будущем лидере рейтинга TOP500

В эти дни в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory, ORNL), находящейся в американском штате Теннесси, кипит работа по вводу в строй суперкомпьютера Summit, расчётная производительность которого примерно в два раза выше, чем у нынешнего рекордсмена Sunway TaihuLight с пропиской в Китае. С показателем быстродействия около 200 Пфлопс Summit опережает в том числе и своего предшественника Titan (17,6 Тфлопс), базирующегося на процессорах Opteron 6274 и HPC-ускорителях Tesla K20X.

Основой Summit являются приблизительно 4600 серверных узлов IBM Power Systems AC922 «Newell». У Titan узлов в четыре раза больше (18 688 шт.), но на каждый приходится только по одному CPU и GPU. В свою очередь, у «строительного блока» Summit по два центральных и шесть графических процессоров. Узлы AC922, сочетающие в себе процессоры IBM POWER9 и HPC-ускорители NVIDIA Volta GV100 (Tesla V100), демонстрировались на недавней выставке-конференции SC17 в Денвере (штат Колорадо, США).

IBM Power Systems AC922 «Newell»

Узел IBM Power Systems AC922 «Newell»

IBM AC922 собираются в 2U-корпусах, где, кроме прочего, размещаются 16 модулей оперативной памяти DDR4-2666 общим объёмом 512 Гбайт (с возможностью расширения до 2 Тбайт), 1,6 Тбайт энергонезависимой буферной памяти для нужд основного хранилища (суммарно 250 Пбайт, интерфейс 2,5 Тбайт/с), два 2200-Вт блока питания с возможностью горячей замены и множественные узлы системы жидкостного охлаждения.

СЖО замысловатой конструкции призвана справиться с шестью 300-Вт GPU и парой 190-Вт CPU. Воздушное охлаждение для тех же целей было бы не таким дорогим, но эксплуатационные расходы в таком случае могли бы значительно вырасти. Пиковое энергопотребление суперкомпьютера ожидается на уровне 13 МВт (по другим данным — 15 МВт). По этому показателю ORNL Titan скромнее с его 9 МВт в условиях максимальной нагрузки. Система питания Summit проектируется с учётом возможного усиления суперкомпьютера дополнительными узлами. После гипотетического апгрейда предельное энергопотребление может достигать 20 МВт.

HPC-ускоритель NVIDIA на чипе Volta GV100 в форм-факторе SMX2

HPC-ускоритель NVIDIA на чипе Volta GV100 в форм-факторе SMX2

Согласно Tom’s Hardware, полностью собранный ORNL Summit займёт площадь двух баскетбольных площадок, то есть около 873 квадратных метров. Суммарная длина кабелей Summit составит 219 км. Прежде сообщалось, что суперкомпьютер будет готов к загрузке ресурсоёмкими научными задачами с января 2019 года. Теперь же речь идёт о его вводе в эксплуатацию в течение 2018 года. При этом, как указывает пресс-служба TOP500, Summit уже в июне возглавит обновлённый рейтинг мощнейших серверных систем, где, похоже, пропишется и NVIDIA DGX SaturnV второго поколения на 5280 ускорителях Tesla V100.

Директор Национальной лаборатории Ок-Ридж Томас Закария (Thomas Zacharia) в общении с представителями ресурса top500.org подчеркнул важность ввода в эксплуатацию такого производительного суперкомпьютера, как Summit:

«Один из наших коллективов разрабатывает алгоритм машинного обучения для Summit, чтобы помочь в выборе лучшего метода лечения рака у каждого конкретного пациента, — отметил г-н Закария. — Другая команда сегодня использует ресурсы Titan для проектирования и мониторинга реакторов на базе технологии управляемого термоядерного синтеза. Ещё одна группа специалистов использует машинное обучение, чтобы помочь классифицировать типы траекторий нейтрино, наблюдаемых в ходе различных экспериментов».

Томас Закария (Thomas Zacharia), фото knoxnews.com

Томас Закария (Thomas Zacharia), фото knoxnews.com

Впрочем, исключительно машинным обучением дело не ограничится. Директор лаборатории Ок-Ридж упомянул о таких вариантах использования Summit, как моделирование климата, решение задач из области релятивистской квантовой химии, вычислительной химии, астрофизики, физики плазмы и биофизики. Собственно, многие проекты уже запущены либо могут быть запущены на мощностях Titan, однако нехватка производительности является препятствием для углублённых исследований.

Комплекс зданий Национальной лаборатории Ок-Ридж

Комплекс зданий Национальной лаборатории Ок-Ридж

Длительная подготовка к запуску Summit объясняется не только необходимостью предварительного тестирования тысяч серверных узлов, но и задержкой со стороны IBM, которая пока не изготовила все заказанные ORNL процессоры POWER9. Со стороны NVIDIA, наоборот, задержек нет, ведь HPC-ускорители Tesla V100 поставляются клиентам уже не первый месяц.

«Сегодня Национальная лаборатория Ок-Ридж находится в завидном положении, — продолжил Томас Закария. — Мы располагаем уникальным опытом исследований в областях химии и физики материалов, нейтронной физики, ядерной физики, компьютерных наук и технических решений. Всё это в сочетании с талантом наших сотрудников позволяет решать проблемы и задачи, связанные с энергетикой, национальной безопасностью, производством и сетевой кибербезопасностью. Одна из наших основных целей заключается в том, чтобы стать ведущим исследовательским центром в мире. Это само по себе вдохновляет нас на новые свершения».

Постоянный URL: http://servernews.ru/961817
Система Orphus