Материалы по тегу: экзафлопс

17.06.2019 [23:32], Константин Ходаковский

Эра экзафлопсных вычислений на подходе, но трудности нарастают

Долгое время Закон Мура был справедлив для всех отраслей компьютерной индустрии — от домашних систем до суперкомпьютеров: каждые два года удваивалось число транзисторов на единицу площади за счёт прогресса в нормах производства, а вместе с этим росла и производительность. Сейчас рост, если судить по рейтингу Top 500, постепенно замедляется. Претендовать на звание суперкомпьютеров могут системы (создаваемые правительствами, институтами и организациями), способные обеспечить не менее петафлопса производительности. Но вскоре десятки и сотни петафлопс станут нормой, экзафлопсные вычисления станут общим местом, и индустрия начнёт думать о выборе следующего психологического порога производительности.

Шесть лет назад в списке Top 500 за июнь 2013 года совокупная производительность полутысячи систем, прошедших тестирование Linpack, начала замедляться и в итоге пересекла прогнозируемую линию закона Мура. Это произошло после всплеска прироста производительности, когда совокупный рост мощностей суперкомпьютеров в течение некоторого времени несколько опережал закон Мура.

Совокупная производительность в списке Top 500 за июнь 2019 года составляет 1,56 экзафлопс, что на 28 % больше 1,22 экзафлопс на июнь 2018 года и вдвое больше 749 петафлопс на июнь 2017 года (стоит помнить, что всё это согласно результатам теста Linpack, оценивающего 64-бит производительность систем в вычислениях с плавающей запятой). Не так уж плохо, но если бы тенденция соответствовала закону Мура, в июне 2019 года совокупная производительность 500 суперкомпьютеров в списке должна была быть на уровне порядка 4 экзафлопс — отставание огромно.

Производительность самого мощного суперкомпьютера на приведённом графике находится посредине. Традиционно эта линия выглядит ступенчатой, поскольку такая система, как правило, возглавляет список несколько лет подряд, пока на смену ей не приходит новый «царь горы». Если бы соответствие закону Мура сохранялось, индустрия уже должна была создать систему производительностью почти 500 петафлопс по оценке в Linpack. Линия закона Мура гласит, что к сентябрю 2020 года у нас должна быть машина с производительностью в 1 экзафлопс. Но, похоже, мы опоздаем примерно на год, даже если США, Китай, Япония и ЕС выполнят свои планы. 

Интересно, однако, что уже в июне 2014 года нижний представитель списка Top 500 тоже стал отставать от прогнозов. Сейчас в этом списке имеются суперкомпьютеры с производительностью не менее 1 петафлопс в операциях с плавающей запятой двойной точности по оценке Linpack. Хотя это и большое достижение, в теории там уже должны быть системы мощностью не менее 2,5 петафлопс.

Насколько всё это критично — сказать сложно. Индустрия высокопроизводительных вычислений продолжает развиваться и решать множество проблем, в том числе в области сетевых соединений и систем хранения данных. Но две вещи очевидны: становится всё труднее поддерживать темпы прироста производительности, как с точки зрения архитектуры, так и с точки зрения затрат.

Уже много лет подряд гораздо проще нарастить производительность суперкомпьютера, чем снизить стоимость вычислительной единицы. Но учёные и технологи стараются решать проблему наращивания производительности на многих фронтах. С одной стороны, даже удивительно, что мы сейчас находимся на пороге экзафлопсных вычислений: единица производительности стоит намного дешевле, чем многие предсказывали, а энергопотребление — заметно ниже, чем представлялось возможным.

Итак, давайте внимательнее взглянем на пять верхних систем из рейтинга Top 500 за июнь 2019 года. Система Summit, созданная IBM с помощью NVIDIA и Mellanox Technologies для Национальной лаборатории Ок-Ридж, немного повысила свою производительность, достигнув стабильных 148,6 петафлопс в Linpack — почти весь прирост получен за счёт ускорителей Tesla с архитектурой Volta. При этом пиковая производительность Summit составляет 200,8 петафлопс.

Система Sierra Ливерморской национальной лаборатории им. Лоуренса сохранила производительность в 94,6 петафлопс и удержалась на втором месте. Sunway TaihuLight в Национальном суперкомпьютерном центре в Уси (Китай) на базе собственных процессоров SW26010 заняла третье место с 93 петафлопсами. Tianhe-2A в Национальном суперкомпьютерном центре в Гуанчжоу (Китай), использующая DSP-ускорители Matrix-2000 и чипы Xeon, заняла четвёртое место с 61,4 петафлопсами.

Ходили слухи о том, что Китай собирается запустить одну из своих систем предэкзафлопсного поколения, чтобы сбросить Summit с Олимпа, однако этого не произошло — возможно, стоит подождать до ноября 2019 года. Можно ожидать, что до появления экзафлопсных систем в конце 2021 года или в начале 2022 года мы увидим немало суперкомпьютеров с производительностью в районе 200 петафлопс.

Система Frontera Центра передовых вычислений в Университете Техаса, созданная Dell на основе 28-ядерных процессоров Intel Xeon Platinum 8280 (Skylake-SP) с использованием интерконнекта InfiniBand 200 Гбит/с от Mellanox, заняла лишь пятое место. Frontera — это уже не вполне характерный сегодня суперкомпьютер, так как для расчётов используются только CPU. Его максимальная теоретическая производительность составляет 38,7 петафлопс, а в Linpack он показывает 23,5 петафлопс — эффективность 448 448 ядер составляет всего 60,7 %. Возможно, в будущем система повысит показатели за счёт оптимизации исполнения Linpack.

Примерно с 2003 года Intel остаётся доминирующим поставщиком — по крайней мере, по количеству систем, использующих её процессоры. Сейчас CPU Intel применяются в 95,6 % представителей из списка Top 500, однако нужно сказать несколько слов и о самом рейтинге. Дело в том, что всё большее количество суперкомпьютеров из США, Китая, ЕС и Японии, отправляющих результаты Linpack, не имеют ничего (подчас абсолютно ничего) общего к реальным рабочим нагрузкам HPC или даже к нагрузкам в области искусственного интеллекта и просто участвуют в рейтинге ради престижа своих стран.

Нет правила, согласно которому входящая в рейтинг машина должна действительно выполнять задачи HPC или ИИ в качестве своей повседневной работы: важны лишь результаты Linpack. Это искажает характер списка: фактически из него вытесняются реальные центры высокопроизводительных вычислений, и, что быть может ещё важнее, создаётся впечатление, будто отставание от закона Мура не столь значительно, чем, вероятно, дело обстоит на самом деле.

Хотелось бы, чтобы в будущем в списке Top 500 была какая-то проверка, позволяющая убедиться, что суперкомпьютер действительно на деле выполнял задачи HPC бо́льшую часть времени до того, как попал в рейтинг. Смысл списка должен быть в понимании реальных тенденций HPC, а не тенденций систем, настроенных на тесты производительности Linpack.

Более четверти всего рейтинга Top 500 сейчас представляют машины с ускорителями. Суперкомпьютеры на базе NVIDIA Tesla V100 в том или ином исполнении занимают 62 пункта или 12,4 % списка, обеспечивая при этом 621,4 петафлопс пиковой и 406,3 петафлопс устойчивой производительности — примерно четверть 1,56 экзафлопса производительности всего списка на июнь 2019 года.

Более старые ускорители NVIDIA Tesla P100 установлены в 46 машинах (9,2 % систем), но обеспечивают 160,8 петафлопс в пике и 94,6 петафлопс устойчивой производительности Linpack (6,1 % совокупной мощности). В список вошли ещё двенадцать машин, использующих акселераторы NVIDIA, но их устойчивая производительность составляет всего 44,7 петафлопс, что не очень много. Есть только две машины, которые построены исключительно на ускорителях Intel Xeon Phi. Есть ряд гибридных машин с Xeon и Xeon Phi, которые за счёт ускорителей способны обеспечить внушительную производительность в операциях с плавающей запятой, но эти данные не конкретизируются в сводной информации Top 500.

Проблема в том, что ускоренные системы ещё не являются нормой, но они уже считаются суперкомпьютерами. Реальные  задачи суперкомпьютеров могут не всегда получать ощутимый прирост от использования GPU и других ускорителей — последние показывают высокую эффективность на системах, которые исполняют одновременно сотни или тысячи приложений и потоков. NVIDIA создала рынок таких систем, а AMD и Intel сейчас собираются на нём конкурировать — это будет стимулировать инновации и снижать цены, что полезно для клиентов, но, возможно, не так хорошо для поставщиков. На рынке HPC уже сегодня сложно зарабатывать деньги, а в эпоху экзафлопсных вычислений станет ещё труднее.

Постоянный URL: http://servernews.ru/989334
07.05.2019 [11:00], Сергей Тверье

Китай инвестирует сразу в три проекта по созданию экзафлопсного суперкомпьютера

Одна из причин, по которой у Китая есть неплохие шансы выполнить свою амбициозную цель по достижению экзафлопсных вычислений к 2020 году, заключается в том, что правительство страны финансирует сразу три отличающихся по своей архитектуре проекта по созданию сверхмощного суперкомпьютера. Национальный университет оборонных технологий (National University of Defense Technology, NUDT), Национальный исследовательский центр параллельной вычислительной техники (National Research Center of Parallel Computer, NRCPC) и компания Sugon (также известная как Dawnning) столкнутся во внутреннем соревновании друг с другом, чтобы создать первый в стране (и, возможно, во всём мире) суперкомпьютер с производительностью в 1 экзафлопс.

Для скорейшего создания суперкомпьютера с производительностью свыше 1 экзафлопа правительство Китая инвестирует сразу в три конкурирующих проекта

Для скорейшего создания суперкомпьютера с производительностью в 1 экзафлопс правительство Китая инвестирует сразу в три конкурирующих проекта

На данный момент каждый из участников соревнования разработал и развернул прототип будущей высокопроизводительной системы, состоящий пока что только из 512 узлов. Дальнейшее их масштабирование в суперкомпьютеры с набором из более чем 100 000 узлов будет непростой задачей не только потому, что это огромный скачок, но также и потому, что Китай привержен идее создания собственных суперкомпьютеров с использованием относительно незрелых отечественных процессоров.

На недавней презентации Руибо Ван (Ruibo Wang) из NUDT поделился подробностями о трёх прототипах, которые были развернуты в 2018 году, и рассказал о некоторых деталях плана его организации в отношении их будущего суперкомпьютера Tianhe-3.

Прототип от NRCPC создан только на базе микропроцессоров без использования каких-либо ускорителей и потому, вероятно, самый классический в сравнении с двумя конкурентами. Фактически, это единственная «не ускоренная» архитектура, которая в настоящее время борется за будущее звание топ 1 суперкомпьютера в Поднебесной. Каждый из его узлов оснащён двумя процессорами ShenWei 26010 (SW26010), тем же чипом, который используется для суперкомпьютера Sunway TaihuLight. 26010 имеет 260 ядер и обеспечивает производительность около 3 терафлопс. Предположительно, у проекта Sunway в разработке есть более мощный чип ShenWei следующего поколения для будущей экзафлопсной системы NRCPC. По мнению портала The Next Platform, его производительность должна составить около 10 терафлопс.

Только в суперкомпьютере от NRCPC не планируется использование каких-либо ускорителей

Только в суперкомпьютере от NRCPC не планируется использование каких-либо ускорителей

Прототип от компании Sugon представляет собой гетерогенную вычислительную систему, состоящую из узлов, каждый из которых оснащён двумя процессорами Hygon x86 и двумя ускорителями DCU, соединённых между собой по топологии 6D-тор, разработанной японской компанией Fujitsu. Процессор представляет собой лицензионную копию первого поколения EPYC от AMD, а DCU - фирменные ускорители, созданные китайской компанией Hygon самостоятельно. В своей презентации Депей Цянь (Depei Qian) из университета Сиань Цзяотун ещё в 2017 году говорил, что производительность DCU в будущем составит до 15 терафлопс. Один из интересных аспектов прототипа от Sugon заключается в том, что он охлаждается иммерсионной СЖО, что может указывать на то, что чип DCU рассеивает просто огромное количество тепла.

Sugon делает ставку на ускорители компании Hygon и её лицензионные копии процессоров первого поколения AMD EPYC

Sugon делает ставку на ускорители компании Hygon и её лицензионные копии процессоров первого поколения EPYC от AMD

Прототип NUDT — это ещё одна гетерогенная архитектура, в данном случае использующая процессоры неизвестного происхождения, а также ускоритель Matrix-2000+, представляющий собой 128-ядерный DSP-чип общего назначения. Можно предположить, что Matrix-2000+ является преемником Matrix-2000, ускорителя, используемого в суперкомпьютере Tianhe-2A с производительностью в 100 петафлопс, который в настоящее время является четвёртым в рейтинге суперкомпьютеров TOP500. На пике Matrix-2000+ обеспечивает производительность в два терафлопса и потребляет около 130 Вт. Если бы данные ускорители использовались для работы суперкомпьютера с производительностью в 1 экзафлопс, то только они потребовали бы около 65 мегаватт для своей работы.

NUDT используют в виде сопроцессора DSP-чип собственного производства — Matrix-2000

NUDT используют в виде ускорителя DSP-чип собственного производства — Matrix-2000+

Однако для будущего суперкомпьютера Tianhe-3 NUDT планирует использовать разрабатываемый на данный момент DSP-чип Matrix-3000 вместе с неизвестным процессором. Ожидается, что будущий DSP будет иметь не менее 96 ядер и производительность более 10 терафлопс, а 64-ядерный процессор обеспечит дополнительно 2 терафлопса. Каждый узел будет оснащён восемью парами таких ускорителей и процессоров, обеспечивая производительность 96 терафлопс в сумме.

Для будущего суперкомпьютера NUDT планируют использовать следующее поколение своего сопроцессора — Matrix-3000, в котором стало заметно меньше ядер, а вот их производительность выросла в разы

Для будущего суперкомпьютера NUDT планируют использовать следующее поколение своего ускорителя — Matrix-3000, в котором стало заметно меньше ядер, а вот их производительность выросла в разы

Вся система будет состоять из 100 шкафов, каждый из которых содержит 128 блейдов, что дает 1,29 экзафлопс в пике. Все узлы будут подключены к собственной сети с пропускной способностью 400 Гбит/с, используя топологию "3D-бабочки" (3D butterfly). Данная топология обеспечит максимум пять переходов между любыми двумя узлами. Охлаждение будет обеспечиваться гибридной воздушно-водной системой, которая, как ожидается, обеспечит показатель PUE менее 1,1.

Будущие суперкомпьютер будет состоять из 100 шкафов, каждый из которых содержит 128 блейдов, которые в свою очередь имеют 8 процессоров и сопроцессоров Matrix, выдающих производительность в 1,29 экзафлопс в сумме

Суперкомпьютер от NUDT будет состоять из 100 шкафов, каждый из которых содержит 128 блейдов, которые в свою очередь имеют 8 процессоров и ускорителей Matrix-3000, выдающих производительность в 1,29 экзафлопс в сумме

Главной загадкой остается происхождение процессоров Tianhe-3. Портал The Next Platform предполагает, что это будет некий процессор на архитектуре Arm. И это вполне вероятно, так как Китай уже некоторое время намекает на то, что одна из его супервычислительных систем будет использовать эту архитектуру. Учитывая ожидаемую производительность процессора в 2 терафлопса, он может даже оказаться реализацией Armv8-A с масштабируемым векторным расширением (SVE).

Если NUDT решит пойти по этому пути, одним из возможных вариантов будет лицензирование у Fujitsu производства процессоров A64FX с технологией Arm SVE, стоящих за разрабатываемым на данный момент японским суперкомпьютером с экзафлопсной производительностью — Post-K. Эти процессоры обеспечивают 2,7 терафлопс производительности, а сама Fujitsu предлагает для них набор необходимых HPC-библиотек. В пользу этого варианта свидетельствует и тот факт, что ранее компания уже заявляла о планах продать некоторые технологии, разработанные ею для Post-K.

В любом случае, если разработка Tianhe-3 будет идти по графику, скоро мы узнаем, какой всё-таки процессор в NUDT используют для своего суперкомпьютера.

Постоянный URL: http://servernews.ru/987026
16.06.2017 [16:20], Владимир Мироненко

В погоне за Китаем США выделили $258 млн на создание экзафлопсного суперкомпьютера

Геополитическая битва за суперкомпьютерную мощь становится всё более ожесточённой. В четверг Министерство энергетики США объявило в рамках проекта Exascale Computing Project о гранте в $258 млн, выделенном шести компаниям — AMD, Cray, HPE, IBM, Intel и NVIDIA — на создание первого национального суперкомпьютера экзафлопсной производительности.

Morris MacMatzen/Getty Images

Morris MacMatzen/Getty Images

Экзафлопсный суперкомпьютер способен производить 1 миллион триллионов (1018, квинтильон) вычислительных операций с плавающей запятой в секунду.

Финансирование будет производиться в течение трёх лет. Компании будут вкладывать в проект и собственные средства в размере не менее 40 % от его общей стоимости, которая, как ожидается, составит не менее $430 млн.

Министерство энергетики США нацелено на развертывание одного экзафлопсного компьютера к 2021 году и по крайней мере двух — к 2023 году. Самый быстрый суперкомпьютер в США на текущий момент — Titan, который находится в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory).

Getty Images/iStockphoto

Getty Images/iStockphoto

США намерены не отставать от стремительно развивающегося Китая, который в настоящее время обладает самым быстрым суперкомпьютером в мире под названием Sunway TaihuLight. Пиковое быстродействие Sunway TaihuLight теоретически может достигать 124,5 петафлопсов, что делает его первой компьютерной системой, чья производительность превосходит 100 петафлопсов.

Интересно также то, что этот суперкомпьютер основан на процессорах китайского производства. В 2015 году правительство США запретило Intel поставлять свои самые быстрые чипы для суперкомпьютерных проектов Китая. Китайское правительство планирует инвестировать в полупроводниковую индустрию в течение следующего десятилетия в пределах $161 млрд. Китай намерен создать свой первый экзафлопсный компьютер раньше, чем США — в 2020 году.

Постоянный URL: http://servernews.ru/954078
02.10.2014 [11:20], Александр Будик

Fujitsu выпустит суперкомпьютер мощностью 1 экзафлопс

Япония решила повторить успех в суперкомпьютерной гонке стран мира и предложила компании Fujitsu стать партнёром в рамках нового проекта. Целью японцев стало создание уникальной вычислительной машины мощностью 1000 петафлопс, что более чем в 30 раз быстрее лидера TOP500. Напомним, согласно последней редакции списка TOP500 самым быстрым суперкомпьютером в мире является система Национального университета оборонных технологий Китая под названием Tianhe-2. Его производительность составляет в бенчмарке Linpack 33,86 петафлопс.

pclaunches.com

pclaunches.com

В реализации совместного проекта Fujitsu будет тесно сотрудничать с одним из крупнейших исследовательских центров Японии, институтом RIKEN. Сначала инженеры разработают базовый дизайн, а запуск этого монстра они планируют осуществить в апреле 2021 года. Проект получил имя FLAGSHIP 2020.

theregister.co.uk

theregister.co.uk

Суперкомпьютер будет нацелен на просчёт высокоуровневых симуляций в девяти приоритетных областях, таких как исследование лекарств, систем предупреждения о землетрясениях и цунами, моделирование глобальной среды, создание новых материалов. США, Китай и некоторые европейские страны также работают над созданием систем мощностью порядка экзафлопс. Но только Япония более-менее четко определилась со сроками.

Стоит отметить, что Fujitsu уже имеет успешный опыт построения суперкомпьютеров. Венцом её творения стал всемирно известный суперкомпьютер K с производительностью 10 петафлопс. В 2012 году он возглавил список TOP500.

Постоянный URL: http://servernews.ru/902847
Система Orphus