Эра экзафлопсных вычислений на подходе, но трудности нарастают

 

Долгое время Закон Мура был справедлив для всех отраслей компьютерной индустрии — от домашних систем до суперкомпьютеров: каждые два года удваивалось число транзисторов на единицу площади за счёт прогресса в нормах производства, а вместе с этим росла и производительность. Сейчас рост, если судить по рейтингу Top 500, постепенно замедляется. Претендовать на звание суперкомпьютеров могут системы (создаваемые правительствами, институтами и организациями), способные обеспечить не менее петафлопса производительности. Но вскоре десятки и сотни петафлопс станут нормой, экзафлопсные вычисления станут общим местом, и индустрия начнёт думать о выборе следующего психологического порога производительности.

Шесть лет назад в списке Top 500 за июнь 2013 года совокупная производительность полутысячи систем, прошедших тестирование Linpack, начала замедляться и в итоге пересекла прогнозируемую линию закона Мура. Это произошло после всплеска прироста производительности, когда совокупный рост мощностей суперкомпьютеров в течение некоторого времени несколько опережал закон Мура.

Совокупная производительность в списке Top 500 за июнь 2019 года составляет 1,56 экзафлопс, что на 28 % больше 1,22 экзафлопс на июнь 2018 года и вдвое больше 749 петафлопс на июнь 2017 года (стоит помнить, что всё это согласно результатам теста Linpack, оценивающего 64-бит производительность систем в вычислениях с плавающей запятой). Не так уж плохо, но если бы тенденция соответствовала закону Мура, в июне 2019 года совокупная производительность 500 суперкомпьютеров в списке должна была быть на уровне порядка 4 экзафлопс — отставание огромно.

Производительность самого мощного суперкомпьютера на приведённом графике находится посредине. Традиционно эта линия выглядит ступенчатой, поскольку такая система, как правило, возглавляет список несколько лет подряд, пока на смену ей не приходит новый «царь горы». Если бы соответствие закону Мура сохранялось, индустрия уже должна была создать систему производительностью почти 500 петафлопс по оценке в Linpack. Линия закона Мура гласит, что к сентябрю 2020 года у нас должна быть машина с производительностью в 1 экзафлопс. Но, похоже, мы опоздаем примерно на год, даже если США, Китай, Япония и ЕС выполнят свои планы.

Интересно, однако, что уже в июне 2014 года нижний представитель списка Top 500 тоже стал отставать от прогнозов. Сейчас в этом списке имеются суперкомпьютеры с производительностью не менее 1 петафлопс в операциях с плавающей запятой двойной точности по оценке Linpack. Хотя это и большое достижение, в теории там уже должны быть системы мощностью не менее 2,5 петафлопс.

Насколько всё это критично — сказать сложно. Индустрия высокопроизводительных вычислений продолжает развиваться и решать множество проблем, в том числе в области сетевых соединений и систем хранения данных. Но две вещи очевидны: становится всё труднее поддерживать темпы прироста производительности, как с точки зрения архитектуры, так и с точки зрения затрат.

Уже много лет подряд гораздо проще нарастить производительность суперкомпьютера, чем снизить стоимость вычислительной единицы. Но учёные и технологи стараются решать проблему наращивания производительности на многих фронтах. С одной стороны, даже удивительно, что мы сейчас находимся на пороге экзафлопсных вычислений: единица производительности стоит намного дешевле, чем многие предсказывали, а энергопотребление — заметно ниже, чем представлялось возможным.

Итак, давайте внимательнее взглянем на пять верхних систем из рейтинга Top 500 за июнь 2019 года. Система Summit, созданная IBM с помощью NVIDIA и Mellanox Technologies для Национальной лаборатории Ок-Ридж, немного повысила свою производительность, достигнув стабильных 148,6 петафлопс в Linpack — почти весь прирост получен за счёт ускорителей Tesla с архитектурой Volta. При этом пиковая производительность Summit составляет 200,8 петафлопс.

Система Sierra Ливерморской национальной лаборатории им. Лоуренса сохранила производительность в 94,6 петафлопс и удержалась на втором месте. Sunway TaihuLight в Национальном суперкомпьютерном центре в Уси (Китай) на базе собственных процессоров SW26010 заняла третье место с 93 петафлопсами. Tianhe-2A в Национальном суперкомпьютерном центре в Гуанчжоу (Китай), использующая DSP-ускорители Matrix-2000 и чипы Xeon, заняла четвёртое место с 61,4 петафлопсами.

Ходили слухи о том, что Китай собирается запустить одну из своих систем предэкзафлопсного поколения, чтобы сбросить Summit с Олимпа, однако этого не произошло — возможно, стоит подождать до ноября 2019 года. Можно ожидать, что до появления экзафлопсных систем в конце 2021 года или в начале 2022 года мы увидим немало суперкомпьютеров с производительностью в районе 200 петафлопс.

Система Frontera Центра передовых вычислений в Университете Техаса, созданная Dell на основе 28-ядерных процессоров Intel Xeon Platinum 8280 (Skylake-SP) с использованием интерконнекта InfiniBand 200 Гбит/с от Mellanox, заняла лишь пятое место. Frontera — это уже не вполне характерный сегодня суперкомпьютер, так как для расчётов используются только CPU. Его максимальная теоретическая производительность составляет 38,7 петафлопс, а в Linpack он показывает 23,5 петафлопс — эффективность 448 448 ядер составляет всего 60,7 %. Возможно, в будущем система повысит показатели за счёт оптимизации исполнения Linpack.

Примерно с 2003 года Intel остаётся доминирующим поставщиком — по крайней мере, по количеству систем, использующих её процессоры. Сейчас CPU Intel применяются в 95,6 % представителей из списка Top 500, однако нужно сказать несколько слов и о самом рейтинге. Дело в том, что всё большее количество суперкомпьютеров из США, Китая, ЕС и Японии, отправляющих результаты Linpack, не имеют ничего (подчас абсолютно ничего) общего к реальным рабочим нагрузкам HPC или даже к нагрузкам в области искусственного интеллекта и просто участвуют в рейтинге ради престижа своих стран.

Нет правила, согласно которому входящая в рейтинг машина должна действительно выполнять задачи HPC или ИИ в качестве своей повседневной работы: важны лишь результаты Linpack. Это искажает характер списка: фактически из него вытесняются реальные центры высокопроизводительных вычислений, и, что быть может ещё важнее, создаётся впечатление, будто отставание от закона Мура не столь значительно, чем, вероятно, дело обстоит на самом деле.

Хотелось бы, чтобы в будущем в списке Top 500 была какая-то проверка, позволяющая убедиться, что суперкомпьютер действительно на деле выполнял задачи HPC бо́льшую часть времени до того, как попал в рейтинг. Смысл списка должен быть в понимании реальных тенденций HPC, а не тенденций систем, настроенных на тесты производительности Linpack.

Более четверти всего рейтинга Top 500 сейчас представляют машины с ускорителями. Суперкомпьютеры на базе NVIDIA Tesla V100 в том или ином исполнении занимают 62 пункта или 12,4 % списка, обеспечивая при этом 621,4 петафлопс пиковой и 406,3 петафлопс устойчивой производительности — примерно четверть 1,56 экзафлопса производительности всего списка на июнь 2019 года.

Более старые ускорители NVIDIA Tesla P100 установлены в 46 машинах (9,2 % систем), но обеспечивают 160,8 петафлопс в пике и 94,6 петафлопс устойчивой производительности Linpack (6,1 % совокупной мощности). В список вошли ещё двенадцать машин, использующих акселераторы NVIDIA, но их устойчивая производительность составляет всего 44,7 петафлопс, что не очень много. Есть только две машины, которые построены исключительно на ускорителях Intel Xeon Phi. Есть ряд гибридных машин с Xeon и Xeon Phi, которые за счёт ускорителей способны обеспечить внушительную производительность в операциях с плавающей запятой, но эти данные не конкретизируются в сводной информации Top 500.

Проблема в том, что ускоренные системы ещё не являются нормой, но они уже считаются суперкомпьютерами. Реальные задачи суперкомпьютеров могут не всегда получать ощутимый прирост от использования GPU и других ускорителей — последние показывают высокую эффективность на системах, которые исполняют одновременно сотни или тысячи приложений и потоков. NVIDIA создала рынок таких систем, а AMD и Intel сейчас собираются на нём конкурировать — это будет стимулировать инновации и снижать цены, что полезно для клиентов, но, возможно, не так хорошо для поставщиков. На рынке HPC уже сегодня сложно зарабатывать деньги, а в эпоху экзафлопсных вычислений станет ещё труднее.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источники:

Постоянный URL: https://servernews.ru/989334

Комментарии

Система Orphus