Материалы по тегу: ornl

04.09.2020 [21:07], Илья Коваль

ORNL вкладывается в OpenACC для суперкомпьютеров с GPU AMD и NVIDIA

Ок-Риджская национальная лаборатория (Oak Ridge National Laboratory, ORNL), владелец одних из самых производительных суперкомпьютеров в мире, выделила средства на улучшение программной поддержки таких машин. В лаборатории есть Summit (IBM POWER + NVIDIA Volta), бывший лидер TOP500, который сейчас занимает второе место в рейтинге. А недавно был демонтирован Titan, место которого займёт Frontier (AMD EPYC + Radeon Instinct).

Актуальные машины, текущая и будущая, являются гетерогенными и при этом базируются на четырёх принципиально разных архитектурах. Желание ORNL упростить разработку и обеспечить переносимость кодов в этой ситуации понятно. Лаборатория сделала ставку на открытые стандарты и технологии и наняла Mentor Graphics, ныне дочернюю компанию Siemens, для улучшения набора компиляторов GCC. Естественно, все наработки будут выложены в открытый доступ (в силу лицензии), от чего выиграют и другие разработчики и пользователи HPC-систем.

Основной фокус будет на улучшении программирования GPU-ускорителей и упрощения переноса на них тяжёлых задач. Для это предполагается значительно улучшить в GCC поддержку OpenACC вкупе с реализацией последней версии OpenMP для распараллеливания программ. Кроме того, Mentor Graphics займётся имплементацией Fortran 2018 в GCC. Сумма контракта между ORNL и исполнителем не раскрывается.

Сроки исполнения также не указываются, но можно предположить, что работа должна быть по большей части завершена к моменту запуска суперкомпьютера Frontier в 2021 году. Кроме того, есть надежда, что финансы, полученные для реализации Frontier, помогут AMD развить собственные средства разработки для CPU и GPU, которые смогут в конечном итоге составить достойную конкуренцию программным продуктам Intel и NVIDIA.

Постоянный URL: http://servernews.ru/1019923
11.08.2020 [12:17], Юрий Поздеев

Суперкомпьютер Summit приглашает в виртуальный тур

Summit, второй по мощности суперкомпьютер в мире, теперь можно осмотреть, совершив виртуальный тур на 3D-платформе Matterport. В процессе виртуального путешествия можно «ходить» вокруг массивного суперкомпьютера по дата-центру Oak Ridge National Laboratory (ORNL) в штате Теннесси, США.

Несмотря на то, что этот суперкомпьютер в Top500 был недавно свергнут новой системой Fugaku от RIKEN, вычислительная мощность Summit (148,6 ПФлопс) по-прежнему ставит его на второе место в мире и на первое место в США. Эту мощность обеспечивают 4662 сервера IBM AC922, оснащенные процессорами IBM POWER9 и ускорителями на базе NVIDIA Volta. Недавно на базе Summit была проведена важная симуляция, направленная на поиск путей лечения вируса Covid-19 (SARS-CoV-2).

Summit не первый суперкомпьютер, доступный для виртуального тура, за последние месяцы подобные проекты были реализованы Hawk в Центре высокопроизводительных вычислений Университета Штутгарта (HLRS) и MareNostrum в Барселонском суперкомпьютерном центре (BSC). Некоторые суперкомпьютерные центры, такие как BSC, предлагают и физические туры, но из-за Covid-19 многие из этих туров были отменены. Summit, с другой стороны, никогда не был регулярно доступен для посетителей, что делает этот тур еще более редким.

До сих пор все три виртуальные тура проводились на платформе Matterport. В процессе тура пользователи могут перемещаться по коридорам и серверным шкафам, с управлением аналогичным Google Street View. Есть возможность взаимодействовать с различными объектами дата-центра, например, можно получить информацию о файловой системе Oak Ridge, узнать о победах в рейтинге Top500 ORNL, просмотреть сертификаты и многое другое.

Пользователи, которым требуется еще большее погружение, могут использовать встроенную возможность виртуальной реальности (при наличии соответствующей гарнитуры).

Вы можете отправиться в виртуальный тур по этой ссылке, используя только браузер, регистрация и какие-то дополнительные устройства не требуются.

Постоянный URL: http://servernews.ru/1017910
20.03.2020 [11:50], Константин Ходаковский

Самый быстрый в мире суперкомпьютер выявил соединения, которые могут остановить коронавирус

Пандемия коронавируса представляет собой беспрецедентную проблему для учёных: скорость, с которой распространяется вирус, означает, что специалисты должны ускорить свои исследования. Помощь в этом вполне могут оказать современные суперкомпьютеры вроде Summit от IBM, который считается самым мощным по рейтингу Top 500

Он использует почти 28 000 графических ускорителей NVIDIA Tesla V100, более 9 000 22-ядерных CPU IBM POWER9 и потребляет около 10 МВт энергии. 

Мы уже писали, что Summit был задействован для поиска соединений, которые могут эффективно остановить заражение клеток вирусом. Суперкомпьютер выявил 77 таких химических веществ. Это многообещающий шаг к созданию эффективного лекарства. Исследователи из Национальной лаборатории Ок-Риджа опубликовали свои выводы в журнале ChemRxiv.

Summit был создан IBM по заказу Министерства энергетики США в 2018 году с целью решения мировых проблем, которой он и служит сейчас. Summit смоделировал, как различные химические соединения могут препятствовать распространению коронавируса в клетках. Ранее Summit позволил выявить закономерности в клеточных системах, предшествующие болезни Альцгеймера; проанализировал гены, способствующие таким признакам, как зависимость от опиоидов; и предсказал экстремальные изменения в погоде на основе моделирования климата.

Вирусы заражают клетки-хозяев, вводя им молекулы ДНК или РНК со своим генетическим материалом. Работа Summit состоит в том, чтобы найти лекарственные соединения, которые могли бы препятствовать этому «впрыску» и потенциально остановить распространение болезни. Исследователь из Ок-Риджа Миколас Смит (Micholas Smith) создал модель коронавируса на основе исследований, опубликованных в январе. На суперкомпьютере он смоделировал, как атомы и частицы матричного белка коронавируса (спайк-белок, который играет ключевую роль в проникновении возбудителя в клетки организма и его воспроизведении внутри них) будут реагировать на различные соединения.

Суперкомпьютер запустил моделирование более 8000 соединений, которые могут связываться со спайк-белком и ограничивать его способность распространяться в клетках-хозяевах. Summit идентифицировал 77 эффективных соединений и оценил их в зависимости от вероятности блокирования спайк-белка.

Далее команда снова запустит моделирование на Summit, используя более точную модель спайк-белка коронавируса, которая была опубликована в этом месяце. Несмотря на всю свою мощь, Summit может лишь выявить перспективные соединения. Затем необходимо провести экспериментальные исследования, чтобы доказать на деле, какие вещества работают лучше всего.

«Наши результаты не означают, что мы нашли лекарство от коронавируса или лечение от него», — сказал, директор Национального центра молекулярной биофизики Университета Теннесси в Ок-Ридже Джереми Смит (Jeremy Smith). Но полученные данные могут послужить основой для будущих исследований. И последние необходимы для создания наиболее эффективной коронавирусной вакцины, до создания которой пройдёт минимум год.

Постоянный URL: http://servernews.ru/1006417
07.03.2020 [12:06], Владимир Мироненко

Самый мощный в мире суперкомпьютер Summit задействовали для поиска средств излечения от коронавируса

Исследователи из Национальной лаборатории Ок-Ридж (ORNL) использовали самый мощный в мире суперкомпьютер Summit для определения 77 низкомолекулярных лекарственных соединений, которые могут быть полезны для дальнейших исследований в борьбе с коронавирусом SARS-CoV-2, ответственным за вспышку инфекции COVID-19.

Два исследователя — Джереми С. Смит (Jeremy C. Smith) и Михолас Смит (Micholas Smith) — выполнили моделирование на суперкомпьютере Summit с более чем 8000 соединений для отбора тех, которые с наибольшей вероятностью могут связываться с основным шиповидным белком коронавируса, чтобы сделать его неспособным инфицировать клетки-хозяева.

Исследователи оценили соединения, представляющие интерес, которые могут иметь значение в экспериментальных исследованиях вируса, и опубликовали результаты в ChemRxiv.

Идея родилась из возникшего интереса к тому, как проникает коронавирус в клетки-хозяева. Когда китайские исследователи установили генетическую связь последовательности его генома, они обнаружили, что он заражает организм с помощью одного из тех же механизмов, что и вирус острой респираторной недостаточности, или вирус атипичной пневмонии, который распространился в 26 странах во время эпидемии в 2003 году. Сходство между двумя структурами вируса облегчило изучение нового коронавируса. Джереми С. Смит (Jeremy C. Smith), профессор Университета штата Теннесси (Юта) и директор Центра молекулярной биофизики UT / ORNL, исходил из того, что два вируса могут даже проникать в клетку одинаковым путём.

Учёным предоставили время для работы на суперкомпьютере Summit, базирующемся на тысячах процессоров NVIDIA Tesla V100 Tensor Core и IBM POWER9. Суперкомпьютер Summit способен выполнять 200 квадриллионов вычислений в секунду — вычислительная мощность примерно в миллион раз больше, чем у среднего ноутбука.

Михолас Смит использовал программный пакет GROMACS, оптимизированный для графического процессора, для выполнения молекулярно-динамического моделирования, которое анализирует движения атомов и частиц в белке. Он производил моделирование стыковки различных соединений с S-белком коронавируса, чтобы определить, может ли какое-либо из них предотвратить его прилипание к клеткам человека.

После того как на сайте Science была опубликована высокоточная модель S-белка, команда учёных планирует вновь провести исследование с использованием этой новой версии.

«Summit потребовался, чтобы быстро получить необходимые результаты моделирования. Это заняло у нас день или два, тогда как на обычном компьютере это заняло бы месяцы, — отметил Джереми Смит. — Полученные результаты не означают, что мы нашли лекарство или способ лечения от уханьского коронавируса. Тем не менее, мы очень надеемся, что результаты вычислений послужат основой для будущих исследований, и экспериментаторы будут использовать их для дальнейшего изучения этих соединений».

Постоянный URL: http://servernews.ru/1005387
02.03.2020 [16:31], Алексей Степин

Прощание с Титаном: как уходят суперкомпьютеры

Обычные компьютеры устаревают — и то же самое касается и суперкомпьютеров. Правда, процесс вывода из эксплуатации в последнем случае гораздо сложнее, хотя бы в силу масштаба. Пришла пора отправляться на покой и заслуженному ветерану Titan, машине, которая за годы своего существования в Национальной лаборатории Ок-Ридж (ORNL) выполнила 2,8 млн заданий для учёных со всего земного шара.

Национальная лаборатория Ок-Ридж

Национальная лаборатория Ок-Ридж

Полностью система называлась Cray XK7 Titan. Она занимала 200 серверных шкафов и имела гибридную архитектуру. В этом смысле Titan стал первым суперкомпьютером в мире, сочетавшем в себе в себе 16-ядерные процессоры AMD Opteron 6274 и ускорители NVIDIA Tesla K20. Общий объём оперативной памяти составлял 700 Тбайт, а дискового хранилища — 40 Пбайт. Titan стал первым суперкомпьютером в мире, перешагнувшим планку производительности 10 Пфлопс, а на пике своего могущества развивал 27 Пфлопс.

Зал, где располагался Titan

Зал, где располагался Titan

Семь лет Titan служил верой и правдой науке, а многие сотрудники лаборатории OLCF даже успели к нему привязаться, так что день отключения был для них грустным событием. Демонтаж потребовал серьёзного совместного планирования со стороны ORNL, Cray и Regency Technologies — не так-то просто убрать 200 стоек с вычислительным оборудованием, занимающим 836 квадратных метров, а ведь есть ещё кабельная инфраструктура и системы охлаждения, в которых, между прочим, находилось 4,5 тонны хладагента R134a.

Прощание с ветераном GPGPU

Прощание с ветераном GPGPU

Только на слив охлаждающей жидкости пришлось затратить три дня, после чего, наконец, можно было начинать демонтаж. Первым делом были отключены все цепи питания, затем заблокированы контуры охлаждения в помещении (ведь во втором контуре Titan циркулировала вода). Следующим шагом стало отключение подпольной кабельной инфраструктуры, как оптической, так и медной. Наконец, со шкафов сняли «шляпы» — теплообменники систем охлаждения. Начался вывоз самих шкафов.

Процесс демонтажа в ускоренном времени

В течение 23 дней 8 сотрудников Cray загрузили 195 тонн оборудования на 140 палет в 15 трейлеров — и Titan отправился в последний путь, занимающий почти 1000 миль. В Даллас, штат Техас, где расположены перерабатывающие предприятия Regency, используемые Cray в своей программе Take-Back. Там была начата разборка самих шкафов и других крупных компонентов системы с последующей сортировкой материалов.

AMD Opteron 6274: 16 ядер Bulldozer/Interlagos, 2,2 ГГц, 115 Ватт TDP

AMD Opteron 6274: 16 ядер Bulldozer/Interlagos, 2,2 ГГц, 115 Ватт TDP

Сталь, медь и алюминий отправились обратно в металлургическое производство, пластик — в переработку. Все сложные компоненты, включая процессоры, ускорители и другие печатные платы прошли специальную обработку, дабы извлечь из них ценные металлы, такие, как золото и платина. К сожалению, единственным ценным компонентом Titan, не подвергшимся тотальному уничтожению, осталась память. По мнению Cray, процессоры и специфические ускорители NVIDIA просто не представляли рыночной ценности; впрочем, часть ускорителей отправилась в запасники суперкомпьютера XE6.

Узел Cray XK7: четыре Opteron, четыре K20

Узел Cray XK7: четыре Opteron, четыре K20. Фото AnandTech

Зачем был нужен демонтаж? Ответ на этот вопрос не так прост: даже на момент вывода из строя Titan обладал солидной мощностью и занимал 12 место в списке самых мощных суперкомпьютеров планеты. Но стоимость его эксплуатации оказалась слишком высокой. В отличие от более современных систем, машина использовала три разных системы охлаждения, включая кондиционирование воздуха.

Уровень энергопотребления также был слишком высоким — в среднем от 4 до 6 мегаватт, чего достаточно для питания более 3000 домов. Мало кто может позволить себе такие счета за электричество. В итоге переработка в соответствии со стандартом Responsible Recycling (R2) стала лучшим решением, поскольку простое захоронение электроники, тем более в таких масштабах, недопустимо. Впрочем, в Индии, например, одну из демонтированных машин Cray когда-то в буквальном смысле закопали в землю. 

Эволюция суперкомпьютеров ORNL

Эволюция суперкомпьютеров ORNL

В настоящее время помещение, где располагался герой нашей заметки, проходит ремонт и модернизацию — в нём будет смонтирован новый суперкомпьютер Frontier. Подвесной потолок будет удалён, поскольку потребуется монтаж новой системы электропитания. Фальшпол будет поднят и усилен, под ним пройдут трубы новой системы охлаждения. Закончить работы предполагается к весне 2021 года.

В новой системе Frontier по-прежнему будут использоваться процессоры AMD, на этот раз, заказные модели EPYC, а вот место ускорителей NVIDIA займут специализированные AMD Radeon Instinct. В итоге производительность системы обещает превысить 1,5 экзафлопса и Frontier станет крупнейшим в истории контрактом Cray.

Постоянный URL: http://servernews.ru/1004978
22.11.2017 [13:00], Иван Грудцын

Суперкомпьютер Summit: подробности о будущем лидере рейтинга TOP500

В эти дни в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory, ORNL), находящейся в американском штате Теннесси, кипит работа по вводу в строй суперкомпьютера Summit, расчётная производительность которого примерно в два раза выше, чем у нынешнего рекордсмена Sunway TaihuLight с пропиской в Китае. С показателем быстродействия около 200 Пфлопс Summit опережает в том числе и своего предшественника Titan (17,6 Тфлопс), базирующегося на процессорах Opteron 6274 и HPC-ускорителях Tesla K20X.

Основой Summit являются приблизительно 4600 серверных узлов IBM Power Systems AC922 «Newell». У Titan узлов в четыре раза больше (18 688 шт.), но на каждый приходится только по одному CPU и GPU. В свою очередь, у «строительного блока» Summit по два центральных и шесть графических процессоров. Узлы AC922, сочетающие в себе процессоры IBM POWER9 и HPC-ускорители NVIDIA Volta GV100 (Tesla V100), демонстрировались на недавней выставке-конференции SC17 в Денвере (штат Колорадо, США).

IBM Power Systems AC922 «Newell»

Узел IBM Power Systems AC922 «Newell»

IBM AC922 собираются в 2U-корпусах, где, кроме прочего, размещаются 16 модулей оперативной памяти DDR4-2666 общим объёмом 512 Гбайт (с возможностью расширения до 2 Тбайт), 1,6 Тбайт энергонезависимой буферной памяти для нужд основного хранилища (суммарно 250 Пбайт, интерфейс 2,5 Тбайт/с), два 2200-Вт блока питания с возможностью горячей замены и множественные узлы системы жидкостного охлаждения.

СЖО замысловатой конструкции призвана справиться с шестью 300-Вт GPU и парой 190-Вт CPU. Воздушное охлаждение для тех же целей было бы не таким дорогим, но эксплуатационные расходы в таком случае могли бы значительно вырасти. Пиковое энергопотребление суперкомпьютера ожидается на уровне 13 МВт (по другим данным — 15 МВт). По этому показателю ORNL Titan скромнее с его 9 МВт в условиях максимальной нагрузки. Система питания Summit проектируется с учётом возможного усиления суперкомпьютера дополнительными узлами. После гипотетического апгрейда предельное энергопотребление может достигать 20 МВт.

HPC-ускоритель NVIDIA на чипе Volta GV100 в форм-факторе SMX2

HPC-ускоритель NVIDIA на чипе Volta GV100 в форм-факторе SMX2

Согласно Tom’s Hardware, полностью собранный ORNL Summit займёт площадь двух баскетбольных площадок, то есть около 873 квадратных метров. Суммарная длина кабелей Summit составит 219 км. Прежде сообщалось, что суперкомпьютер будет готов к загрузке ресурсоёмкими научными задачами с января 2019 года. Теперь же речь идёт о его вводе в эксплуатацию в течение 2018 года. При этом, как указывает пресс-служба TOP500, Summit уже в июне возглавит обновлённый рейтинг мощнейших серверных систем, где, похоже, пропишется и NVIDIA DGX SaturnV второго поколения на 5280 ускорителях Tesla V100.

Директор Национальной лаборатории Ок-Ридж Томас Закария (Thomas Zacharia) в общении с представителями ресурса top500.org подчеркнул важность ввода в эксплуатацию такого производительного суперкомпьютера, как Summit:

«Один из наших коллективов разрабатывает алгоритм машинного обучения для Summit, чтобы помочь в выборе лучшего метода лечения рака у каждого конкретного пациента, — отметил г-н Закария. — Другая команда сегодня использует ресурсы Titan для проектирования и мониторинга реакторов на базе технологии управляемого термоядерного синтеза. Ещё одна группа специалистов использует машинное обучение, чтобы помочь классифицировать типы траекторий нейтрино, наблюдаемых в ходе различных экспериментов».

Томас Закария (Thomas Zacharia), фото knoxnews.com

Томас Закария (Thomas Zacharia), фото knoxnews.com

Впрочем, исключительно машинным обучением дело не ограничится. Директор лаборатории Ок-Ридж упомянул о таких вариантах использования Summit, как моделирование климата, решение задач из области релятивистской квантовой химии, вычислительной химии, астрофизики, физики плазмы и биофизики. Собственно, многие проекты уже запущены либо могут быть запущены на мощностях Titan, однако нехватка производительности является препятствием для углублённых исследований.

Комплекс зданий Национальной лаборатории Ок-Ридж

Комплекс зданий Национальной лаборатории Ок-Ридж

Длительная подготовка к запуску Summit объясняется не только необходимостью предварительного тестирования тысяч серверных узлов, но и задержкой со стороны IBM, которая пока не изготовила все заказанные ORNL процессоры POWER9. Со стороны NVIDIA, наоборот, задержек нет, ведь HPC-ускорители Tesla V100 поставляются клиентам уже не первый месяц.

«Сегодня Национальная лаборатория Ок-Ридж находится в завидном положении, — продолжил Томас Закария. — Мы располагаем уникальным опытом исследований в областях химии и физики материалов, нейтронной физики, ядерной физики, компьютерных наук и технических решений. Всё это в сочетании с талантом наших сотрудников позволяет решать проблемы и задачи, связанные с энергетикой, национальной безопасностью, производством и сетевой кибербезопасностью. Одна из наших основных целей заключается в том, чтобы стать ведущим исследовательским центром в мире. Это само по себе вдохновляет нас на новые свершения».

Постоянный URL: http://servernews.ru/961817
21.12.2016 [08:39], Алексей Степин

Производительность NVIDIA Volta GV100 может достигнуть 9,5 терафлопс

Как известно, следующим после Pascal поколением графических процессоров NVIDIA является Volta. Впрочем, к современным чипам название «графический процессор» применимо всё меньше — с тех пор, как их архитектура стала полностью унифицированной и программируемой, они прочно утвердились в различных проектах суперкомпьютеров, некоторые из которых уже вступили в строй и вовсю заняты научными и другими сложными вычислениями. Создавая свой первый чип Pascal GP100, NVIDIA уделила больше внимания его вычислительным возможностям, нежели графическим, и, похоже, первенца в семействе Volta, чип GV100, ожидает аналогичный подход.

Новый принцип построения узлов суперкомпьютера. Количество плат ускорителей не соответствует указанному в заметке

Новый принцип построения узлов суперкомпьютера. Количество плат ускорителей не соответствует указанному в заметке

Уже подтверждено, что GV100 станет сердцем, а точнее, сердцами суперкомпьютеров Summit в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory) и Sierra в Ливерморской национальной лаборатории (Lawrence Livermore National Laboratory). Первый проект должен войти в рабочую стадию в начале 2018 года и развить пиковую мощность 200 петафлопс, что существенно превышает показатель самого быстрого сегодняшнего китайского суперкомпьютера Sunway TaihuLight, чьи возможности оцениваются в 125,4 петафлопса. К сожалению, о характеристиках и архитектуре GV100 мы до сих пор знаем не так много, как хотелось бы, но кое-какие сведения о проекте Summit позволяют сделать некоторые выводы.

Тот самый слайд

Тот самый слайд

Лаборатория в Ок-Ридже опубликовала слайд, на котором Summit сравнивается с суперкомпьютером Titan, базирующимся на чипах Kepler GK110. Состоит он из 18688 узлов, мощность каждого из них составляет 1,4 терафлопса. На том же плакате указаны спецификации Summit: 4600 узлов с мощностью более 40 терафлопс на узел. Указано также, что в каждом узле будет 512 Гбайт памяти DDR4, 800 Гбайт энергонезависимой памяти и некий объём памяти HBM (речь, разумеется, идёт о HBM2). Основой каждого узла станут пара процессоров IBM POWER9 и шесть процессоров NVIDIA Volta. Чипы POWER9, помимо традиционных линий PCI Express (версия 4.0) имеют и 48 линий интерфейса Bluelink, который будет работать в режиме NVLink 2.0 и соединять их с процессорами Volta, что позволит процессорам различных архитектур делить общее пространство памяти, практически не теряя в скорости: пропускная способность может составлять от 80 до 200 Гбайт/с.

Использование NVLink экономит энергию и повышает производительность

Использование NVLink экономит энергию и повышает производительность

Потребляемая Summit мощность составит 13 мегаватт — всего на 4 мегаватта больше, нежели у Titan, при более чем десятикратном превосходстве в производительности. Как мы знаем, NVIDIA объявила о том, что GV100 будет демонстрировать эффективность 72 гигафлопса на ватт при операции перемножения матриц с одинарной точностью (Single precision floating General Matrix Multiply). Для GP100 этот показатель равен 42 гигафлопса на ватт. Нетрудно посчитать, приняв за основу теплопакет GV100 на уровне 300 ватт, что этот чип в теории может достичь производительности 9,5 терафлопс на вычислениях двойной точности (FP64). Шесть чипов GV100 при потреблении не выше 300 ватт на чип как раз и дадут упомянутые на плакате «более 40 терафлопс», а точнее, в теории, смогут выдать 57,2 терафлопса. Даже при конфигурации с теплопакетом 200 ватт и на 20‒25 % более низкой производительности производительность узла составит 45,6 терафлопс, так что у создателей Summit явно есть задел по части экономии электроэнергии при сохранении заявленных характеристик. По крайней мере, такой подход может существенно облегчить работу холодильных установок Summit.

Постоянный URL: http://servernews.ru/944758
Система Orphus