Материалы по тегу: top500

18.06.2019 [12:54], Константин Ходаковский

В тесте ИИ мощнейший суперкомпьютер утроил результат за счёт вычислений смешанной точности

Недавно мы писали большой материал, посвящённый июньскому обновлению публичного рейтинга суперкомпьютеров Top 500. В нём, в частности, упоминались проблемы, связанные с оценкой реальной производительности систем. Дело в том, что в список попадают суперкомпьютеры, которые прошли тест High-Performance Linpack (HPL) вне зависимости от того, используются ли они для реальных нагрузок HPC или ИИ. Но есть и другая сторона дела: Linpack оценивает 64-бит производительность систем в вычислениях с плавающей запятой, но многие современные нагрузки в области ИИ не всегда требуют такой точности, и потому реальная производительность может быть заметно выше.

Именно это недавно продемонстрировала Национальная лаборатории Ок-Риджа, протестировав свой суперкомпьютер Summit (текущий лидер среди участников публичного рейтинга Top500, создан IBM при участии NVIDIA и Mellanox) в особом тесте HPL-AI, призванном оценивать производительность суперкомпьютеров в задачах машинного обучения и искусственного интеллекта. В этом тесте Summit набрал 445 петафлопс — втрое больше стабильных 148,6 петафлопс в тесте HPL.

HPL, представленный три десятка лет назад, остаётся эталоном для измерения производительности систем Top500 в задачах HPC. Более современная альтернатива — HPCG Benchmark — пока так и не достигла заветной цифры в 500 участников рейтинга. 

Однако нынешние суперкомпьютеры теперь используются и в сфере «искусственного интеллекта», а не только для классических «тяжёлых» расчётов. При этом в большинстве ИИ-моделей применяются вычисления половинной или смешанной точности — принципиально иной метод, который позволяет исследователям повысить вычислительную эффективность, получив доступ к неиспользованному потенциалу производительности современных суперкомпьютеров.

Чтобы учесть этот фактор и был предложен тест HPL-AI, представляющий собой развитие HPL для оценки производительности вычислений смешанной точности, широко используемых для обучения моделей искусственного интеллекта. Методология HPL-AI изложена в документе, опубликованном на SC 2018 Аззамом Хайдаром (Azzam Haidar), Джеком Донгаррой и его командой.

«Методы смешанной точности становятся все более важными для повышения вычислительной эффективности суперкомпьютеров, как для традиционного моделирования с методами итеративного уточнения, так и для задач ИИ, — отметил господин Донгарра. — Так же, как HPL позволяет сравнивать потенциал систем в вычислениях двойной точности, этот новый подход, основанный на HPL, позволяет сравнивать возможности суперкомпьютеров в задачах смешанной точности».

NVIDIA удалось осуществить весь массив вычислений в рамках тестового запуска HPL-AI на Summit всего за полчаса — втрое быстрее, чем исполняется оригинальный HPL. В ряде задач, как можно видеть, это может давать кратно ощутимое преимущество. Напомним: в Summit используется 27 000 графических ускорителей NVIDIA Tesla V100.

Учёные используют суперкомпьютеры с поддержкой вычислений смешанной точности для моделирования и задач искусственного интеллекта в области химии, атомной энергетики, нефтегазовой промышленности и так далее.

Постоянный URL: http://servernews.ru/989365
17.06.2019 [23:32], Константин Ходаковский

Эра экзафлопсных вычислений на подходе, но трудности нарастают

Долгое время Закон Мура был справедлив для всех отраслей компьютерной индустрии — от домашних систем до суперкомпьютеров: каждые два года удваивалось число транзисторов на единицу площади за счёт прогресса в нормах производства, а вместе с этим росла и производительность. Сейчас рост, если судить по рейтингу Top 500, постепенно замедляется. Претендовать на звание суперкомпьютеров могут системы (создаваемые правительствами, институтами и организациями), способные обеспечить не менее петафлопса производительности. Но вскоре десятки и сотни петафлопс станут нормой, экзафлопсные вычисления станут общим местом, и индустрия начнёт думать о выборе следующего психологического порога производительности.

Шесть лет назад в списке Top 500 за июнь 2013 года совокупная производительность полутысячи систем, прошедших тестирование Linpack, начала замедляться и в итоге пересекла прогнозируемую линию закона Мура. Это произошло после всплеска прироста производительности, когда совокупный рост мощностей суперкомпьютеров в течение некоторого времени несколько опережал закон Мура.

Совокупная производительность в списке Top 500 за июнь 2019 года составляет 1,56 экзафлопс, что на 28 % больше 1,22 экзафлопс на июнь 2018 года и вдвое больше 749 петафлопс на июнь 2017 года (стоит помнить, что всё это согласно результатам теста Linpack, оценивающего 64-бит производительность систем в вычислениях с плавающей запятой). Не так уж плохо, но если бы тенденция соответствовала закону Мура, в июне 2019 года совокупная производительность 500 суперкомпьютеров в списке должна была быть на уровне порядка 4 экзафлопс — отставание огромно.

Производительность самого мощного суперкомпьютера на приведённом графике находится посредине. Традиционно эта линия выглядит ступенчатой, поскольку такая система, как правило, возглавляет список несколько лет подряд, пока на смену ей не приходит новый «царь горы». Если бы соответствие закону Мура сохранялось, индустрия уже должна была создать систему производительностью почти 500 петафлопс по оценке в Linpack. Линия закона Мура гласит, что к сентябрю 2020 года у нас должна быть машина с производительностью в 1 экзафлопс. Но, похоже, мы опоздаем примерно на год, даже если США, Китай, Япония и ЕС выполнят свои планы. 

Интересно, однако, что уже в июне 2014 года нижний представитель списка Top 500 тоже стал отставать от прогнозов. Сейчас в этом списке имеются суперкомпьютеры с производительностью не менее 1 петафлопс в операциях с плавающей запятой двойной точности по оценке Linpack. Хотя это и большое достижение, в теории там уже должны быть системы мощностью не менее 2,5 петафлопс.

Насколько всё это критично — сказать сложно. Индустрия высокопроизводительных вычислений продолжает развиваться и решать множество проблем, в том числе в области сетевых соединений и систем хранения данных. Но две вещи очевидны: становится всё труднее поддерживать темпы прироста производительности, как с точки зрения архитектуры, так и с точки зрения затрат.

Уже много лет подряд гораздо проще нарастить производительность суперкомпьютера, чем снизить стоимость вычислительной единицы. Но учёные и технологи стараются решать проблему наращивания производительности на многих фронтах. С одной стороны, даже удивительно, что мы сейчас находимся на пороге экзафлопсных вычислений: единица производительности стоит намного дешевле, чем многие предсказывали, а энергопотребление — заметно ниже, чем представлялось возможным.

Итак, давайте внимательнее взглянем на пять верхних систем из рейтинга Top 500 за июнь 2019 года. Система Summit, созданная IBM с помощью NVIDIA и Mellanox Technologies для Национальной лаборатории Ок-Ридж, немного повысила свою производительность, достигнув стабильных 148,6 петафлопс в Linpack — почти весь прирост получен за счёт ускорителей Tesla с архитектурой Volta. При этом пиковая производительность Summit составляет 200,8 петафлопс.

Система Sierra Ливерморской национальной лаборатории им. Лоуренса сохранила производительность в 94,6 петафлопс и удержалась на втором месте. Sunway TaihuLight в Национальном суперкомпьютерном центре в Уси (Китай) на базе собственных процессоров SW26010 заняла третье место с 93 петафлопсами. Tianhe-2A в Национальном суперкомпьютерном центре в Гуанчжоу (Китай), использующая DSP-ускорители Matrix-2000 и чипы Xeon, заняла четвёртое место с 61,4 петафлопсами.

Ходили слухи о том, что Китай собирается запустить одну из своих систем предэкзафлопсного поколения, чтобы сбросить Summit с Олимпа, однако этого не произошло — возможно, стоит подождать до ноября 2019 года. Можно ожидать, что до появления экзафлопсных систем в конце 2021 года или в начале 2022 года мы увидим немало суперкомпьютеров с производительностью в районе 200 петафлопс.

Система Frontera Центра передовых вычислений в Университете Техаса, созданная Dell на основе 28-ядерных процессоров Intel Xeon Platinum 8280 (Skylake-SP) с использованием интерконнекта InfiniBand 200 Гбит/с от Mellanox, заняла лишь пятое место. Frontera — это уже не вполне характерный сегодня суперкомпьютер, так как для расчётов используются только CPU. Его максимальная теоретическая производительность составляет 38,7 петафлопс, а в Linpack он показывает 23,5 петафлопс — эффективность 448 448 ядер составляет всего 60,7 %. Возможно, в будущем система повысит показатели за счёт оптимизации исполнения Linpack.

Примерно с 2003 года Intel остаётся доминирующим поставщиком — по крайней мере, по количеству систем, использующих её процессоры. Сейчас CPU Intel применяются в 95,6 % представителей из списка Top 500, однако нужно сказать несколько слов и о самом рейтинге. Дело в том, что всё большее количество суперкомпьютеров из США, Китая, ЕС и Японии, отправляющих результаты Linpack, не имеют ничего (подчас абсолютно ничего) общего к реальным рабочим нагрузкам HPC или даже к нагрузкам в области искусственного интеллекта и просто участвуют в рейтинге ради престижа своих стран.

Нет правила, согласно которому входящая в рейтинг машина должна действительно выполнять задачи HPC или ИИ в качестве своей повседневной работы: важны лишь результаты Linpack. Это искажает характер списка: фактически из него вытесняются реальные центры высокопроизводительных вычислений, и, что быть может ещё важнее, создаётся впечатление, будто отставание от закона Мура не столь значительно, чем, вероятно, дело обстоит на самом деле.

Хотелось бы, чтобы в будущем в списке Top 500 была какая-то проверка, позволяющая убедиться, что суперкомпьютер действительно на деле выполнял задачи HPC бо́льшую часть времени до того, как попал в рейтинг. Смысл списка должен быть в понимании реальных тенденций HPC, а не тенденций систем, настроенных на тесты производительности Linpack.

Более четверти всего рейтинга Top 500 сейчас представляют машины с ускорителями. Суперкомпьютеры на базе NVIDIA Tesla V100 в том или ином исполнении занимают 62 пункта или 12,4 % списка, обеспечивая при этом 621,4 петафлопс пиковой и 406,3 петафлопс устойчивой производительности — примерно четверть 1,56 экзафлопса производительности всего списка на июнь 2019 года.

Более старые ускорители NVIDIA Tesla P100 установлены в 46 машинах (9,2 % систем), но обеспечивают 160,8 петафлопс в пике и 94,6 петафлопс устойчивой производительности Linpack (6,1 % совокупной мощности). В список вошли ещё двенадцать машин, использующих акселераторы NVIDIA, но их устойчивая производительность составляет всего 44,7 петафлопс, что не очень много. Есть только две машины, которые построены исключительно на ускорителях Intel Xeon Phi. Есть ряд гибридных машин с Xeon и Xeon Phi, которые за счёт ускорителей способны обеспечить внушительную производительность в операциях с плавающей запятой, но эти данные не конкретизируются в сводной информации Top 500.

Проблема в том, что ускоренные системы ещё не являются нормой, но они уже считаются суперкомпьютерами. Реальные  задачи суперкомпьютеров могут не всегда получать ощутимый прирост от использования GPU и других ускорителей — последние показывают высокую эффективность на системах, которые исполняют одновременно сотни или тысячи приложений и потоков. NVIDIA создала рынок таких систем, а AMD и Intel сейчас собираются на нём конкурировать — это будет стимулировать инновации и снижать цены, что полезно для клиентов, но, возможно, не так хорошо для поставщиков. На рынке HPC уже сегодня сложно зарабатывать деньги, а в эпоху экзафлопсных вычислений станет ещё труднее.

Постоянный URL: http://servernews.ru/989334
05.04.2019 [14:20], Сергей Юртайкин

12 суперкомпьютеров РСК вошли в свежий рейтинг Top50 в России и СНГ

Разработчик и интегратор решений для дата-центров РСК занял первое место среди российских производителей суперкомпьютеров в свежем рейтинге Top50. Об этом говорится в пресс-релизе, поступившем в редакцию 3DNews.

В 30-ю редакцию списка самых мощных суперкомпьютеров в России и СНГ вошли 12 вычислительных комплексов производства РСК, что позволило компании занять 24-процентную долю в рейтинге.

В 2018 году РСК обновила суперкомпьютеры Российской академии наук и установила новую вычислительную систему «МВС-10П ОП2», которая с пиковой производительностью 200,45 Тфлопс расположилась на 20-й строчке рейтинга Top50.

В результате модернизации суммарная пиковая производительность обновленного суперкомпьютерного парка МСЦ РАН, реализованного на базе вычислительных систем РСК с использованием только жидкостного охлаждения, выросла на 20 % и составила более 1,2 Пфлопс.

В Top50 в России и СНГ вошли 5 систем производства РСК, установленные в МСЦ РАН и занимающие в последней на данный момент редакции рейтинга 9-ю, 16-ю, 20-ю, 31-ю и 48-ю позиции.

Кроме того, в список попали следующие проекты РСК: суперкомпьютерные комплексы Санкт-Петербургского политехнического университета имени Петра Великого (5-е и 13-е места), Объединённого института ядерных исследований (25-я позиция), Сибирского суперкомпьютерного центра ИВМиМГ СО РАН (44-е место), в Южно-Уральском государственном университете (11-я и 27-я позиции) и Московском физико-техническом институте (39-е место).

Постоянный URL: http://servernews.ru/985387
13.11.2018 [12:00], Андрей Созинов

Новый рейтинг TOP500: первые системы на ARM и AMD Zen и доминирование Китая

Традиционно в ноябре был опубликован обновлённый список самых производительных суперкомпьютеров TOP500. Новая редакция примечательна не только некоторыми изменениями в десятке лидеров, но также и тем, что в ней впервые появились системы на базе процессоров с архитектурой ARM и на процессорах с x86-архитектурой AMD Zen.

Итак, десятку лидеров пополнил суперкомпьютер SuperMUC, принадлежащий Баварской академии наук и размещённый недалеко от Мюнхена. Он построен на 3100 процессорах Xeon Platinum 8174, каждый из которых имеет 24 ядра. С производительностью почти в 26,9 Пфлопс он занял восьмое место.

SuperMUC

SuperMUC

В свою очередь американский суперкомпьютер Sierra после повышения его производительности до 125,7 Пфлопс поднялся на вторую позицию рейтинга. Теперь суперкомпьютеры из США занимают первые две строчки рейтинга. Напомним, что на первом месте ранее в этом году расположился Summit. А вот китайский суперкомпьютер Sunway TaihuLight, который был лидером TOP500 на протяжении двух лет, переместился на третье место.

Российских суперкомпьютеров в рейтинге TOP500 по-прежнему три: Ломоносов и Ломоносов-2, принадлежащие МГУ, а также суперкомпьютер Росгидромета. Они располагаются на 79, 485 и 282 местах соответственно.

Ломоносов-2

Ломоносов-2

Первым суперкомпьютером на базе ARM в списке TOP500 стала система Astra от HPE, о которой ранее мы уже писали. Этот суперкомпьютер построен на процессорах Cavium ThunderX 2, которые включают по 28 ядер с тактовой частотой 2 ГГц. Суперкомпьютер построен на кластерах HPE Apollo 70, и в сумме включает 125328 ядер, а его производительность достигает 2 Пфлопс. Расположилась система Astra на 204 месте рейтинга.

HPE Apollo 70 — кластер на ARM

HPE Apollo 70 — кластер на ARM

А вот первым суперкомпьютером на процессорах с архитектурой AMD Zen стала китайская система Advanced Computing System (PreE). Построена она на китайских «клонах» AMD Epyc — процессорах Hygon Dhyana. Эти процессоры аналогичны модели Epyc 7501 и также включают 32 ядра с частотой 2 ГГц. Данный суперкомпьютер насчитывает 163 840 ядер Zen, а его пиковая производительность достигает 6,13 Пфлопс. Занимает эта система 39 место.

Также нельзя пройти мимо общих трендов развития суперкомпьютеров. Для начала обратим внимание, что почти половина всех суперкомпьютеров из списка TOP500 расположены в Китае. Если точнее, то сейчас список включает 229 китайских систем. Полгода назад их было 206. На втором месте по количеству идёт США, далее Япония и страны Европы.

В большинстве (95,2 %) суперкомпьютеров из списка TOP500 используются процессоры Intel. Самыми популярными по-прежнему являются процессоры поколения Broadwell, но постепенно набирают популярность и Skylake. На базе процессоров AMD построено лишь три суперкомпьютера, из которых лишь один на базе Epyc, да и то китайского, а два других — на Opteron.

Интересно, что число суперкомпьютеров списка TOP500 с производительностью выше одного петафлопса достигло 427 единиц. Полгода назад их было лишь 272. Из всего списка 137 систем используют ускорители вычислений на базе GPU или сопроцессоров. В большинстве своём это ускорители NVIDIA Tesla поколений Pascal и Volta. Около 50 % вычислительной мощности всех систем списка приходится на GPU, и постепенно их доля растёт.

Отметим, что свой вклад в будущем внесут программируемые матрицы FPGA, которые также будут использоваться в качестве ускорителей вычислений в дополнение к обычным процессорам. Весьма перспективно тут выглядят процессоры, размещённые вместе с FPGA-матрицей в одном корпусе.

Наконец, что касается Green500 — списка наиболее энергоэффективных суперкомпьютеров, которые обеспечивают больше всего вычислительной мощности на единицу потребляемой энергии. Довольно интересно, что на третьем месте этого списка расположился самый производительный суперкомпьютер в мире — Summit. Также заметим, что в десятку наиболее энергоэффективных суперкомпьютеров входит ещё пара представителей десятки самых производительных систем.

Постоянный URL: http://servernews.ru/978073
17.03.2018 [11:25], Алексей Степин

TOP500: бенчмарк HPCG набирает популярность, вытесняя HPL

На протяжении многих лет основным тестовым инструментом для измерения производительности суперкомпьютеров и кластерных систем был пакет High Performance Linpack (HPL), причём, таковым он считался де-факто. Продержался этот пакет в таком статусе четверть века, что в мире информационных технологий означает не одну эпоху: в 1993 году самым мощным процессором с архитектурой x86 был Intel Pentium (P5), но процветали также архитектуры MIPS (R4400), SPARC V8/V9, DEC Alpha и POWER2. Но у HPL есть одна проблема: тест хорошо подходит для «прогрева» только что смонтированной системы, и в лучшем случае предоставляет собой не самый точный индикатор того, насколько хорошо она будет выполнять научные и инженерные задачи.

1992 год: одно из воплощений процветавших тогда архитектур, процессор  DEC Alpha 21064 (EV4)

1992 год: одно из воплощений процветавших тогда архитектур, процессор DEC Alpha 21064 (EV4)

Команда разработчиков альтернативного тестового пакета HPCG (High Performance Gradients) продвигает своё детище уже довольно давно, при этом статистика производительности собирается с 2014 года, что, конечно, не идёт в сравнение со сроками HPL, но всё же популярность новинки постоянно растёт. Создатель HPCG считает, что Linpack на сегодня свою задачу выполнил и более не отвечает требованиям времени. В этом есть смысл: HPL использует богатые на вычисления алгоритмы с небольшими, «плотными» структурами данных, но современные приложения могут задействовать (и часто задействуют) огромные распределенные массивы при менее интенсивных вычислениях. Примером могут послужить задачи класса Big Data, но создатели HPCG используют и другие актуальные примеры, например, моделирование распределения давлений в потоке жидкости, где также сильна нагрузка на подсистему памяти.

Одно из многочисленных сердец комплекса K: чип SPARC64 VIIIfx. 128 гигафлопс, 45 нм

Одно из многочисленных сердец комплекса K: чип SPARC64 VIIIfx. 128 гигафлопс, 45 нм

В число типичных для сегодняшнего дня проектов входят задачи машинного обучения, финансовая аналитика, системы защиты от электронного мошенничества — и все они серьёзно зависят от производительности системы при случайном обращении к памяти. И в этом плане HPCG гораздо лучше отвечает веяниям нового времени, нежели HPL, поскольку последний тест не нагружает подсистему памяти — во всяком случае, сколько-нибудь серьёзно по нынешним меркам. Сама ситуация в сфере высокопроизводительных вычислений действительно такова, что узкими местами уже давно являются не процессоры, а подсистемы памяти и межузловой коммуникации. Количество процессоров увеличить легко, но гораздо сложнее «прокормить» их так, чтобы вычислительные ядра не простаивали попусту, и именно поэтому подсистемы памяти также нуждаются в тщательном тестировании, что может предложить HPCG. Итог любопытный и похож он более всего на ведро ледяной воды на голову энтузиастов супервычислений: результаты HPCG нередко оказываются гораздо скромнее показателей, достигнутых в HPL.

Десятка лучших систем по данным тестового комплекса HPCG. Обратите внимание на КПД

Десятка лучших систем по данным тестового комплекса HPCG. Обратите внимание на КПД

Из 181 протестированной системы мощностью от 1 петафлопса в HPCG подобного показателя не смогла показать ни одна. Это должно серьёзно охладить пыл энтузиастов, вещающих об «эре петафлопсов», вполне закономерно возвращая их в предыдущую «эру терафлопсов». В настоящее время лидером в HPCG является комплекс с простейшим названием K, запущенный в 2011 году в Институте физико-химических исследований в городе Кобе, Япония. Он показывает 602,7 терафплоса, что составляет лишь 5,3 % от теоретической пиковой производительности. По всей видимости, стать победителем этой системе помогла фирменная шестимерная система межузловых соединений под названием Tofu (Torus Fusion). Основой K являются процессоры SPARC64 VIIIfx, хотя и x86 нашлось место в десятке лидеров: второе место занимает машина NUDT, построенная на базе связки Xeon и Xeon Phi. Скромные показатели эффективности неоспоримо свидетельствуют о том, что разработчикам суперкомпьютеров следует сконцентрировать свои усилия на улучшении характеристик подсистем памяти, хранения данных, а также межузловых соединений. Процессорных же мощностей в 2018 году более чем достаточно.

Постоянный URL: http://servernews.ru/967110
07.12.2017 [18:44], Алексей Степин

Новый кластер NVIDIA Saturn V: некоторые подробности

Крупнейшие разработчики и производители микропроцессоров не очень-то любят рассказывать о своих проектах суперкомпьютеров, и информацию о таких проектах буквально приходится выцеживать по крупицам. Оригинальный узловой сервер NVIDIA DGX-1, являющийся основой кластера Saturn V, был представлен ещё на конференции SC16. Вся система состояла из 124 серверов DGX-1P, в каждом из которых было установлено по два 20-ядерных процессора Broadwell-EP с частотой 2,2 ГГц и по 8 ускорителей на базе Pascal P100 в форм-факторе SXM2, позволявшим пользоваться интерфейсом NVLink 1.0. На сегодня, однако, в руках NVIDIA есть куда более подходящий ускоритель - Tesla V100, чьи тензорные ядра делают его отличным решением для задач машинного обучения.

С четырьмя узлами DGX-1P, каждый из которых, к слову, мог потреблять до 3200 ватт, система смогла достичь пиковой производительности 4,9 петафлопса на вычислениях двойной точности. Тест матричной математики Linpack Fortran показал 67,5 % эффективности (3,31 петафлопса), что обеспечило системе 28 место в списке Top 500 на ноябрь 2016 года. Стоимость Saturn V составила $13 миллионов. Если бы процессоры Xeon имели интерфейс NVLink, производительность была бы выше, но они такового не имеют, вот почему NVIDIA вкладывает усилия в создание нового узлового сервера на базе процессоров POWER9. Назовём такую модель DGP-1V: в этом названии зашифровано сочетание POWER9 и ускорителей Volta. Новая версия NVLink 2.0 и когерентность кешей ЦП и ГП должна существенно увеличить эффективность такого сервера.

От малого к большому: иерархия узлов Saturn V

От малого к большому: иерархия узлов Saturn V

Новый Saturn V в максимальной конфигурации будет насчитывать до 660 узлов, оснащённых ускорителями Tesla V100; впрочем, их количество на узел останется прежним — по восемь ускорителей на корпус. Всего в системе будет 5280 процессоров Volta, что даст ей 80 петафлопс пиковой производительности на одинарной точности и 40 петафлопс — на двойной. Но что самое важное, в задачах машинного обучения, где часто используется смесь FP16 и FP32, теоретическая эффективная производительность нового Saturn V может достичь 660 петафлопс. Пока NVIDIA протестировала лишь 33-узловую конфигурацию, показавшую 1,82 петафлопса и эффективность на уровне 58,8 %, но удельная производительность составила 15,1 Гфлопс/ватт против 9,46 Гфлопс/ватт у системы предыдущего поколения.

Среднее звено

Среднее звено

Дешёвой новая система не будет: стоимость одного узла в полном оснащении оценивается в $149 тысяч (против $129 тысяч у DGX-1P), и суперкомпьютер Saturn V в новом своём воплощении может обойтись в $100‒$110 миллионов, причём эта цена не включает программное обеспечение для машинного обучения и внешние файловые системы Lustre или GPFS. Но заявка у «зелёных» серьёзная: в районе следующего года NVIDIA надеется смонтировать полную 660-узловую версию Saturn V и достичь показателя 22,3 петафлопса в тестах Linpack, что выведет новый суперкомпьютер на третье место в списке Top 500. Особенно большие надежды возлагаются на задачи машинного обучения: DGX-1P мог обеспечивать в этих сценариях 170 терафлопс, а вот условный DGP-1V за счёт наличия тензорных ядер — уже 960 терафлопс или в 5,6 раз больше.

Высший уровень

Высший уровень

Что касается сетевой конфигурации, то основой межузловых соединений станет стандарт InfiniBand EDR со скоростью 100 Гбит/с на кабель. Доступ к основной сети и хранилищам данных обеспечит сеть Ethernet на скорости 10 Гбит/с (несколько странно, что не использован более новый стандарт 25G), а для целей управления и телеметрии хватит и обычного канала Gigabit Ethernet. На среднем уровне коммутацию IB будут выполнять устройства Mellanox Director с 216 портами, а на высшем — ещё более мощные коммутаторы той же серии с 324 портами. Узким местом система межузловых соединений, скорее всего, не станет —  у Mellanox наработан огромный опыт в этой области, и есть полный спектр решений, покрывающих все потребности NVIDIA в проектировании сетевой подсистемы нового Saturn V.

Постоянный URL: http://servernews.ru/962577
22.11.2017 [13:00], Иван Грудцын

Суперкомпьютер Summit: подробности о будущем лидере рейтинга TOP500

В эти дни в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory, ORNL), находящейся в американском штате Теннесси, кипит работа по вводу в строй суперкомпьютера Summit, расчётная производительность которого примерно в два раза выше, чем у нынешнего рекордсмена Sunway TaihuLight с пропиской в Китае. С показателем быстродействия около 200 Пфлопс Summit опережает в том числе и своего предшественника Titan (17,6 Тфлопс), базирующегося на процессорах Opteron 6274 и HPC-ускорителях Tesla K20X.

Основой Summit являются приблизительно 4600 серверных узлов IBM Power Systems AC922 «Newell». У Titan узлов в четыре раза больше (18 688 шт.), но на каждый приходится только по одному CPU и GPU. В свою очередь, у «строительного блока» Summit по два центральных и шесть графических процессоров. Узлы AC922, сочетающие в себе процессоры IBM POWER9 и HPC-ускорители NVIDIA Volta GV100 (Tesla V100), демонстрировались на недавней выставке-конференции SC17 в Денвере (штат Колорадо, США).

IBM Power Systems AC922 «Newell»

Узел IBM Power Systems AC922 «Newell»

IBM AC922 собираются в 2U-корпусах, где, кроме прочего, размещаются 16 модулей оперативной памяти DDR4-2666 общим объёмом 512 Гбайт (с возможностью расширения до 2 Тбайт), 1,6 Тбайт энергонезависимой буферной памяти для нужд основного хранилища (суммарно 250 Пбайт, интерфейс 2,5 Тбайт/с), два 2200-Вт блока питания с возможностью горячей замены и множественные узлы системы жидкостного охлаждения.

СЖО замысловатой конструкции призвана справиться с шестью 300-Вт GPU и парой 190-Вт CPU. Воздушное охлаждение для тех же целей было бы не таким дорогим, но эксплуатационные расходы в таком случае могли бы значительно вырасти. Пиковое энергопотребление суперкомпьютера ожидается на уровне 13 МВт (по другим данным — 15 МВт). По этому показателю ORNL Titan скромнее с его 9 МВт в условиях максимальной нагрузки. Система питания Summit проектируется с учётом возможного усиления суперкомпьютера дополнительными узлами. После гипотетического апгрейда предельное энергопотребление может достигать 20 МВт.

HPC-ускоритель NVIDIA на чипе Volta GV100 в форм-факторе SMX2

HPC-ускоритель NVIDIA на чипе Volta GV100 в форм-факторе SMX2

Согласно Tom’s Hardware, полностью собранный ORNL Summit займёт площадь двух баскетбольных площадок, то есть около 873 квадратных метров. Суммарная длина кабелей Summit составит 219 км. Прежде сообщалось, что суперкомпьютер будет готов к загрузке ресурсоёмкими научными задачами с января 2019 года. Теперь же речь идёт о его вводе в эксплуатацию в течение 2018 года. При этом, как указывает пресс-служба TOP500, Summit уже в июне возглавит обновлённый рейтинг мощнейших серверных систем, где, похоже, пропишется и NVIDIA DGX SaturnV второго поколения на 5280 ускорителях Tesla V100.

Директор Национальной лаборатории Ок-Ридж Томас Закария (Thomas Zacharia) в общении с представителями ресурса top500.org подчеркнул важность ввода в эксплуатацию такого производительного суперкомпьютера, как Summit:

«Один из наших коллективов разрабатывает алгоритм машинного обучения для Summit, чтобы помочь в выборе лучшего метода лечения рака у каждого конкретного пациента, — отметил г-н Закария. — Другая команда сегодня использует ресурсы Titan для проектирования и мониторинга реакторов на базе технологии управляемого термоядерного синтеза. Ещё одна группа специалистов использует машинное обучение, чтобы помочь классифицировать типы траекторий нейтрино, наблюдаемых в ходе различных экспериментов».

Томас Закария (Thomas Zacharia), фото knoxnews.com

Томас Закария (Thomas Zacharia), фото knoxnews.com

Впрочем, исключительно машинным обучением дело не ограничится. Директор лаборатории Ок-Ридж упомянул о таких вариантах использования Summit, как моделирование климата, решение задач из области релятивистской квантовой химии, вычислительной химии, астрофизики, физики плазмы и биофизики. Собственно, многие проекты уже запущены либо могут быть запущены на мощностях Titan, однако нехватка производительности является препятствием для углублённых исследований.

Комплекс зданий Национальной лаборатории Ок-Ридж

Комплекс зданий Национальной лаборатории Ок-Ридж

Длительная подготовка к запуску Summit объясняется не только необходимостью предварительного тестирования тысяч серверных узлов, но и задержкой со стороны IBM, которая пока не изготовила все заказанные ORNL процессоры POWER9. Со стороны NVIDIA, наоборот, задержек нет, ведь HPC-ускорители Tesla V100 поставляются клиентам уже не первый месяц.

«Сегодня Национальная лаборатория Ок-Ридж находится в завидном положении, — продолжил Томас Закария. — Мы располагаем уникальным опытом исследований в областях химии и физики материалов, нейтронной физики, ядерной физики, компьютерных наук и технических решений. Всё это в сочетании с талантом наших сотрудников позволяет решать проблемы и задачи, связанные с энергетикой, национальной безопасностью, производством и сетевой кибербезопасностью. Одна из наших основных целей заключается в том, чтобы стать ведущим исследовательским центром в мире. Это само по себе вдохновляет нас на новые свершения».

Постоянный URL: http://servernews.ru/961817
14.11.2017 [18:00], Иван Грудцын

NVIDIA строит суперкомпьютер на 5280 ускорителях Tesla V100

Год назад компания NVIDIA представила суперкомпьютер DGX SaturnV для исследований в области искусственного интеллекта. Система включала 125 серверных узла DGX-1 (стоимостью $129 000 каждый) с весьма достойным соотношением производительности и энергопотребления, равным 9,46 Гфлопс/Вт. В престижном рейтинге TOP500 годичной давности сервер занял почётное 28 место, но за год опустился на восемь строчек, и в Санта-Кларе было принято решение построить подобный суперкомпьютер с бóльшим количеством узлов — 660 шт. При этом вместо DGX-1 на основе HPC-ускорителей Tesla P100 (Pascal) была сделана ставка на более мощные одноимённые узлы, оснащённые ускорителями Tesla V100 (Volta) — по восемь штук на узел, как и в DGX SaturnV первого поколения.


Согласно подсчётам NVIDIA, решение задач из области глубинного обучения занимает у восьми адаптеров Tesla V100 почти в два с половиной раза меньше времени, чем у DGX-1 с восемью Tesla P100, а «чистая» производительность в вычислениях половинной точности (они же FP16 или, по определению NVIDIA, «AI-вычисления») выше почти в шесть раз. Суммарная производительность 124 узлов DGX-1/P100 составляет всего 21,25 Пфлопс FP16, тогда как 660 узлов DGX-1/V100 — 660 Пфлопс.

DGX-1 на базе Tesla V100

NVIDIA DGX-1

«Пробный» сервер DGX SaturnV с несколькими десятками узлов DGX-1/V100 прописался на 149 месте в TOP500 и на почётном 4 месте в Green500.

Соотношение производительности и энергопотребления выросло с 9,46 Гфлопс/Вт до 15,11 Гфлопс/Вт, но для сотен узлов нового DGX SaturnV всё равно необходимы порядка 2 МВт мощности. Таким образом, количество блоков питания измеряется уже не сотнями, как у прошлогоднего SaturnV, а тысячами. На один серверный узел DGX-1 по-прежнему приходится два 20-ядерных процессора Intel Xeon E5-2698 v4 (Broadwell-EP) с частотой от 2,2 до 3,6 ГГц. Объём оперативной памяти LRDIMM DDR4-2133 составляет 512 Гбайт на узел, также применяются четыре 1,92-Тбайт SSD-накопителя.

Судя по отсутствию нового DGX SaturnV на третьей строчке в TOP500, где он мог бы оказаться с ~30 Пфлопс в Linpack, сборка суперкомпьютера займёт ещё какое-то время. Параллельно NVIDIA принимает заказы на AI-серверы с DGX-1/V100 в качестве «строительного блока». Один такой «кирпич» (узел) стоит $149 000 — на 20 тыс. долларов дороже, чем аналог на Tesla P100.

Постоянный URL: http://servernews.ru/961485
14.11.2017 [13:00], Сергей Карасёв

Представлена юбилейная редакция мирового рейтинга суперкомпьютеров Top500

Обнародована юбилейная пятидесятая редакция рейтинга мощнейших вычислительных систем мира Top500. Забегая вперёд скажем, что лидерство сохранил китайский суперкомпьютер Sunway TaihuLight.

Суммарная производительность входящих в рейтинг вычислительных комплексов достигла 845 петафлопсов (квадриллионов операций с плавающей запятой в секунду). Для сравнения: шесть месяцев назад этот показатель равнялся 749 петафлопсам, а год назад — 672 петафлопсам.

Из 500 вошедших в рейтинг систем в 471 применяются процессоры Intel. Таким образом, доля этих суперкомпьютеров достигла 94,2 %. Ещё 14 комплексов полагаются на процессоры IBM Power.

Производительность наименее мощного суперкомпьютера в рейтинге составляет 548,7 терафлопса (триллиона операций с плавающей запятой в секунду). Полгода назад на последней строчке находилась система с быстродействием 432 терафлопса.

По общему количеству систем в рейтинге лидирует Китай, на счету которого 202 комплекса. Далее идут Соединённые Штаты со 143 системами. Япония с 35 суперкомпьютерами находится на третьем месте.

Лидирующую позицию, как уже отмечалось, продолжает удерживать китайский монстр Sunway TaihuLight, быстродействие которого составляет 93 петафлопса, а пиковая производительность теоретически может достигать 125 петафлопсов.

На второй строке располагается ещё одна система из КНР — Tianhe-2 (MilkyWay-2) с мощностью в 33,9 петафлопса. «Бронза» досталась швейцарской системе Piz Daint с 19,6 петафлопса.

Самый мощный российский суперкомпьютер — «Ломоносов-2» — располагается на 63 строке с быстродействием в 2,1 петафлопса. 

Постоянный URL: http://servernews.ru/961477
26.09.2017 [06:53], Алексей Степин

Производительность суперкомпьютера Tianhe-2 будет доведена до 95 петафлопс

Согласно спискам Top500 по состоянию на июнь 2017 года первым в мире по вычислительной мощности по-прежнему остаётся китайский суперкомпьютер Sunway TaihuLight с пиковой производительностью свыше 93 петафлопс. Мы уже рассказывали читателям о его составляющих, в частности, довольно уникальных по архитектуре процессорах.

Но у чемпиона появился опаснейший соперник, правда, родом тоже из КНР. Это суперкомпьютер Tianhe-2, занимавший до недавнего времени вторую строку в рейтинге Top500 с показателем пиковой производительности почти 34 петафлопса. Затем он был разогнан до 55 петафлопс, а теперь пришло время дать бой лидеру.

Tianhe-2: до и после

Tianhe-2: до и после

В последнем варианте Tianhe-2 базировался на связках Intel Xeon и Xeon Phi, таких узлов у него было 16 тысяч. В качестве межблочной связи использовался стандарт 10 Гбит/с с задержкой 1,57 микросекунды, объём оперативной памяти составлял 1,4 петабайт, объём хранимых данных — 12,4 петабайт. Максимальная скорость работы с «дисковой» подсистемой могла достигать 512 Гбайт/с.

Свежая кровь: сопроцессор Matrix-2000

Свежая кровь: сопроцессор Matrix-2000

В настоящее время Tianhe-2 подвергается самой серьёзной модернизации за всю свою рабочую карьеру. Новая система будет называться Tianhe-2A, а место ускорителей Xeon Phi в ней займут сопроцессоры Matrix-2000 с уникальной архитектурой, разработанной китайскими специалистами. Чип этот являет собой разновидность DSP, оптимизированную, однако, с прицелом на вычисления общего характера. Декларируется поддержка OpenMP/OpenCL.

Общий план системы и межузловых соединений

Общий план системы и межузловых соединений

В результате подобного апгрейда количество узлов в системе увеличится до 17792, а пиковая производительность при этом почти достигнет 95 петафплос (94,97 петафлопс в проекте). Сетевая подсистема также подвергнется модернизации и скорость передачи данных в среде увеличится до 14 Гбит/с, а латентность упадет до 1 микросекунды. Объём оперативной памяти нарастят до 3,4 петабайт, «дисковой» — до 19 петабайт, а скорость доступа к последней достигнет 1 Тбайт/с.

Старый узел на базе Xeon Phi (слева) и новый на базе Matrix-2000. Процессоры припаиваются непосредственно к плате

Старый узел на базе Xeon Phi (слева) и новый на базе Matrix-2000. Процессоры припаиваются непосредственно к плате

Вырастет и энергоэффективность: если раньше удельная производительность составляла 1,9 гигафлопс на ватт, то после модернизации этот показатель превысит 5 гигафлопс на ватт. Впрочем, «смены власти», скорее всего, не произойдет: если в тестах High Performance Linpack TaihuLight может достичь показателя 125,4 петафлопса, то прогнозы по Tianhe-2 скромнее и находятся в районе 70‒80 петафлопс.

Постоянный URL: http://servernews.ru/959041
Система Orphus