Материалы по тегу: top500

13.11.2018 [12:00], Андрей Созинов

Новый рейтинг TOP500: первые системы на ARM и AMD Zen и доминирование Китая

Традиционно в ноябре был опубликован обновлённый список самых производительных суперкомпьютеров TOP500. Новая редакция примечательна не только некоторыми изменениями в десятке лидеров, но также и тем, что в ней впервые появились системы на базе процессоров с архитектурой ARM и на процессорах с x86-архитектурой AMD Zen.

Итак, десятку лидеров пополнил суперкомпьютер SuperMUC, принадлежащий Баварской академии наук и размещённый недалеко от Мюнхена. Он построен на 3100 процессорах Xeon Platinum 8174, каждый из которых имеет 24 ядра. С производительностью почти в 26,9 Пфлопс он занял восьмое место.

SuperMUC

SuperMUC

В свою очередь американский суперкомпьютер Sierra после повышения его производительности до 125,7 Пфлопс поднялся на вторую позицию рейтинга. Теперь суперкомпьютеры из США занимают первые две строчки рейтинга. Напомним, что на первом месте ранее в этом году расположился Summit. А вот китайский суперкомпьютер Sunway TaihuLight, который был лидером TOP500 на протяжении двух лет, переместился на третье место.

Российских суперкомпьютеров в рейтинге TOP500 по-прежнему три: Ломоносов и Ломоносов-2, принадлежащие МГУ, а также суперкомпьютер Росгидромета. Они располагаются на 79, 485 и 282 местах соответственно.

Ломоносов-2

Ломоносов-2

Первым суперкомпьютером на базе ARM в списке TOP500 стала система Astra от HPE, о которой ранее мы уже писали. Этот суперкомпьютер построен на процессорах Cavium ThunderX 2, которые включают по 28 ядер с тактовой частотой 2 ГГц. Суперкомпьютер построен на кластерах HPE Apollo 70, и в сумме включает 125328 ядер, а его производительность достигает 2 Пфлопс. Расположилась система Astra на 204 месте рейтинга.

HPE Apollo 70 — кластер на ARM

HPE Apollo 70 — кластер на ARM

А вот первым суперкомпьютером на процессорах с архитектурой AMD Zen стала китайская система Advanced Computing System (PreE). Построена она на китайских «клонах» AMD Epyc — процессорах Hygon Dhyana. Эти процессоры аналогичны модели Epyc 7501 и также включают 32 ядра с частотой 2 ГГц. Данный суперкомпьютер насчитывает 163 840 ядер Zen, а его пиковая производительность достигает 6,13 Пфлопс. Занимает эта система 39 место.

Также нельзя пройти мимо общих трендов развития суперкомпьютеров. Для начала обратим внимание, что почти половина всех суперкомпьютеров из списка TOP500 расположены в Китае. Если точнее, то сейчас список включает 229 китайских систем. Полгода назад их было 206. На втором месте по количеству идёт США, далее Япония и страны Европы.

В большинстве (95,2 %) суперкомпьютеров из списка TOP500 используются процессоры Intel. Самыми популярными по-прежнему являются процессоры поколения Broadwell, но постепенно набирают популярность и Skylake. На базе процессоров AMD построено лишь три суперкомпьютера, из которых лишь один на базе Epyc, да и то китайского, а два других — на Opteron.

Интересно, что число суперкомпьютеров списка TOP500 с производительностью выше одного петафлопса достигло 427 единиц. Полгода назад их было лишь 272. Из всего списка 137 систем используют ускорители вычислений на базе GPU или сопроцессоров. В большинстве своём это ускорители NVIDIA Tesla поколений Pascal и Volta. Около 50 % вычислительной мощности всех систем списка приходится на GPU, и постепенно их доля растёт.

Отметим, что свой вклад в будущем внесут программируемые матрицы FPGA, которые также будут использоваться в качестве ускорителей вычислений в дополнение к обычным процессорам. Весьма перспективно тут выглядят процессоры, размещённые вместе с FPGA-матрицей в одном корпусе.

Наконец, что касается Green500 — списка наиболее энергоэффективных суперкомпьютеров, которые обеспечивают больше всего вычислительной мощности на единицу потребляемой энергии. Довольно интересно, что на третьем месте этого списка расположился самый производительный суперкомпьютер в мире — Summit. Также заметим, что в десятку наиболее энергоэффективных суперкомпьютеров входит ещё пара представителей десятки самых производительных систем.

Постоянный URL: http://servernews.ru/978073
17.03.2018 [11:25], Алексей Степин

TOP500: бенчмарк HPCG набирает популярность, вытесняя HPL

На протяжении многих лет основным тестовым инструментом для измерения производительности суперкомпьютеров и кластерных систем был пакет High Performance Linpack (HPL), причём, таковым он считался де-факто. Продержался этот пакет в таком статусе четверть века, что в мире информационных технологий означает не одну эпоху: в 1993 году самым мощным процессором с архитектурой x86 был Intel Pentium (P5), но процветали также архитектуры MIPS (R4400), SPARC V8/V9, DEC Alpha и POWER2. Но у HPL есть одна проблема: тест хорошо подходит для «прогрева» только что смонтированной системы, и в лучшем случае предоставляет собой не самый точный индикатор того, насколько хорошо она будет выполнять научные и инженерные задачи.

1992 год: одно из воплощений процветавших тогда архитектур, процессор  DEC Alpha 21064 (EV4)

1992 год: одно из воплощений процветавших тогда архитектур, процессор DEC Alpha 21064 (EV4)

Команда разработчиков альтернативного тестового пакета HPCG (High Performance Gradients) продвигает своё детище уже довольно давно, при этом статистика производительности собирается с 2014 года, что, конечно, не идёт в сравнение со сроками HPL, но всё же популярность новинки постоянно растёт. Создатель HPCG считает, что Linpack на сегодня свою задачу выполнил и более не отвечает требованиям времени. В этом есть смысл: HPL использует богатые на вычисления алгоритмы с небольшими, «плотными» структурами данных, но современные приложения могут задействовать (и часто задействуют) огромные распределенные массивы при менее интенсивных вычислениях. Примером могут послужить задачи класса Big Data, но создатели HPCG используют и другие актуальные примеры, например, моделирование распределения давлений в потоке жидкости, где также сильна нагрузка на подсистему памяти.

Одно из многочисленных сердец комплекса K: чип SPARC64 VIIIfx. 128 гигафлопс, 45 нм

Одно из многочисленных сердец комплекса K: чип SPARC64 VIIIfx. 128 гигафлопс, 45 нм

В число типичных для сегодняшнего дня проектов входят задачи машинного обучения, финансовая аналитика, системы защиты от электронного мошенничества — и все они серьёзно зависят от производительности системы при случайном обращении к памяти. И в этом плане HPCG гораздо лучше отвечает веяниям нового времени, нежели HPL, поскольку последний тест не нагружает подсистему памяти — во всяком случае, сколько-нибудь серьёзно по нынешним меркам. Сама ситуация в сфере высокопроизводительных вычислений действительно такова, что узкими местами уже давно являются не процессоры, а подсистемы памяти и межузловой коммуникации. Количество процессоров увеличить легко, но гораздо сложнее «прокормить» их так, чтобы вычислительные ядра не простаивали попусту, и именно поэтому подсистемы памяти также нуждаются в тщательном тестировании, что может предложить HPCG. Итог любопытный и похож он более всего на ведро ледяной воды на голову энтузиастов супервычислений: результаты HPCG нередко оказываются гораздо скромнее показателей, достигнутых в HPL.

Десятка лучших систем по данным тестового комплекса HPCG. Обратите внимание на КПД

Десятка лучших систем по данным тестового комплекса HPCG. Обратите внимание на КПД

Из 181 протестированной системы мощностью от 1 петафлопса в HPCG подобного показателя не смогла показать ни одна. Это должно серьёзно охладить пыл энтузиастов, вещающих об «эре петафлопсов», вполне закономерно возвращая их в предыдущую «эру терафлопсов». В настоящее время лидером в HPCG является комплекс с простейшим названием K, запущенный в 2011 году в Институте физико-химических исследований в городе Кобе, Япония. Он показывает 602,7 терафплоса, что составляет лишь 5,3 % от теоретической пиковой производительности. По всей видимости, стать победителем этой системе помогла фирменная шестимерная система межузловых соединений под названием Tofu (Torus Fusion). Основой K являются процессоры SPARC64 VIIIfx, хотя и x86 нашлось место в десятке лидеров: второе место занимает машина NUDT, построенная на базе связки Xeon и Xeon Phi. Скромные показатели эффективности неоспоримо свидетельствуют о том, что разработчикам суперкомпьютеров следует сконцентрировать свои усилия на улучшении характеристик подсистем памяти, хранения данных, а также межузловых соединений. Процессорных же мощностей в 2018 году более чем достаточно.

Постоянный URL: http://servernews.ru/967110
07.12.2017 [18:44], Алексей Степин

Новый кластер NVIDIA Saturn V: некоторые подробности

Крупнейшие разработчики и производители микропроцессоров не очень-то любят рассказывать о своих проектах суперкомпьютеров, и информацию о таких проектах буквально приходится выцеживать по крупицам. Оригинальный узловой сервер NVIDIA DGX-1, являющийся основой кластера Saturn V, был представлен ещё на конференции SC16. Вся система состояла из 124 серверов DGX-1P, в каждом из которых было установлено по два 20-ядерных процессора Broadwell-EP с частотой 2,2 ГГц и по 8 ускорителей на базе Pascal P100 в форм-факторе SXM2, позволявшим пользоваться интерфейсом NVLink 1.0. На сегодня, однако, в руках NVIDIA есть куда более подходящий ускоритель - Tesla V100, чьи тензорные ядра делают его отличным решением для задач машинного обучения.

С четырьмя узлами DGX-1P, каждый из которых, к слову, мог потреблять до 3200 ватт, система смогла достичь пиковой производительности 4,9 петафлопса на вычислениях двойной точности. Тест матричной математики Linpack Fortran показал 67,5 % эффективности (3,31 петафлопса), что обеспечило системе 28 место в списке Top 500 на ноябрь 2016 года. Стоимость Saturn V составила $13 миллионов. Если бы процессоры Xeon имели интерфейс NVLink, производительность была бы выше, но они такового не имеют, вот почему NVIDIA вкладывает усилия в создание нового узлового сервера на базе процессоров POWER9. Назовём такую модель DGP-1V: в этом названии зашифровано сочетание POWER9 и ускорителей Volta. Новая версия NVLink 2.0 и когерентность кешей ЦП и ГП должна существенно увеличить эффективность такого сервера.

От малого к большому: иерархия узлов Saturn V

От малого к большому: иерархия узлов Saturn V

Новый Saturn V в максимальной конфигурации будет насчитывать до 660 узлов, оснащённых ускорителями Tesla V100; впрочем, их количество на узел останется прежним — по восемь ускорителей на корпус. Всего в системе будет 5280 процессоров Volta, что даст ей 80 петафлопс пиковой производительности на одинарной точности и 40 петафлопс — на двойной. Но что самое важное, в задачах машинного обучения, где часто используется смесь FP16 и FP32, теоретическая эффективная производительность нового Saturn V может достичь 660 петафлопс. Пока NVIDIA протестировала лишь 33-узловую конфигурацию, показавшую 1,82 петафлопса и эффективность на уровне 58,8 %, но удельная производительность составила 15,1 Гфлопс/ватт против 9,46 Гфлопс/ватт у системы предыдущего поколения.

Среднее звено

Среднее звено

Дешёвой новая система не будет: стоимость одного узла в полном оснащении оценивается в $149 тысяч (против $129 тысяч у DGX-1P), и суперкомпьютер Saturn V в новом своём воплощении может обойтись в $100‒$110 миллионов, причём эта цена не включает программное обеспечение для машинного обучения и внешние файловые системы Lustre или GPFS. Но заявка у «зелёных» серьёзная: в районе следующего года NVIDIA надеется смонтировать полную 660-узловую версию Saturn V и достичь показателя 22,3 петафлопса в тестах Linpack, что выведет новый суперкомпьютер на третье место в списке Top 500. Особенно большие надежды возлагаются на задачи машинного обучения: DGX-1P мог обеспечивать в этих сценариях 170 терафлопс, а вот условный DGP-1V за счёт наличия тензорных ядер — уже 960 терафлопс или в 5,6 раз больше.

Высший уровень

Высший уровень

Что касается сетевой конфигурации, то основой межузловых соединений станет стандарт InfiniBand EDR со скоростью 100 Гбит/с на кабель. Доступ к основной сети и хранилищам данных обеспечит сеть Ethernet на скорости 10 Гбит/с (несколько странно, что не использован более новый стандарт 25G), а для целей управления и телеметрии хватит и обычного канала Gigabit Ethernet. На среднем уровне коммутацию IB будут выполнять устройства Mellanox Director с 216 портами, а на высшем — ещё более мощные коммутаторы той же серии с 324 портами. Узким местом система межузловых соединений, скорее всего, не станет —  у Mellanox наработан огромный опыт в этой области, и есть полный спектр решений, покрывающих все потребности NVIDIA в проектировании сетевой подсистемы нового Saturn V.

Постоянный URL: http://servernews.ru/962577
22.11.2017 [13:00], Иван Грудцын

Суперкомпьютер Summit: подробности о будущем лидере рейтинга TOP500

В эти дни в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory, ORNL), находящейся в американском штате Теннесси, кипит работа по вводу в строй суперкомпьютера Summit, расчётная производительность которого примерно в два раза выше, чем у нынешнего рекордсмена Sunway TaihuLight с пропиской в Китае. С показателем быстродействия около 200 Пфлопс Summit опережает в том числе и своего предшественника Titan (17,6 Тфлопс), базирующегося на процессорах Opteron 6274 и HPC-ускорителях Tesla K20X.

Основой Summit являются приблизительно 4600 серверных узлов IBM Power Systems AC922 «Newell». У Titan узлов в четыре раза больше (18 688 шт.), но на каждый приходится только по одному CPU и GPU. В свою очередь, у «строительного блока» Summit по два центральных и шесть графических процессоров. Узлы AC922, сочетающие в себе процессоры IBM POWER9 и HPC-ускорители NVIDIA Volta GV100 (Tesla V100), демонстрировались на недавней выставке-конференции SC17 в Денвере (штат Колорадо, США).

IBM Power Systems AC922 «Newell»

Узел IBM Power Systems AC922 «Newell»

IBM AC922 собираются в 2U-корпусах, где, кроме прочего, размещаются 16 модулей оперативной памяти DDR4-2666 общим объёмом 512 Гбайт (с возможностью расширения до 2 Тбайт), 1,6 Тбайт энергонезависимой буферной памяти для нужд основного хранилища (суммарно 250 Пбайт, интерфейс 2,5 Тбайт/с), два 2200-Вт блока питания с возможностью горячей замены и множественные узлы системы жидкостного охлаждения.

СЖО замысловатой конструкции призвана справиться с шестью 300-Вт GPU и парой 190-Вт CPU. Воздушное охлаждение для тех же целей было бы не таким дорогим, но эксплуатационные расходы в таком случае могли бы значительно вырасти. Пиковое энергопотребление суперкомпьютера ожидается на уровне 13 МВт (по другим данным — 15 МВт). По этому показателю ORNL Titan скромнее с его 9 МВт в условиях максимальной нагрузки. Система питания Summit проектируется с учётом возможного усиления суперкомпьютера дополнительными узлами. После гипотетического апгрейда предельное энергопотребление может достигать 20 МВт.

HPC-ускоритель NVIDIA на чипе Volta GV100 в форм-факторе SMX2

HPC-ускоритель NVIDIA на чипе Volta GV100 в форм-факторе SMX2

Согласно Tom’s Hardware, полностью собранный ORNL Summit займёт площадь двух баскетбольных площадок, то есть около 873 квадратных метров. Суммарная длина кабелей Summit составит 219 км. Прежде сообщалось, что суперкомпьютер будет готов к загрузке ресурсоёмкими научными задачами с января 2019 года. Теперь же речь идёт о его вводе в эксплуатацию в течение 2018 года. При этом, как указывает пресс-служба TOP500, Summit уже в июне возглавит обновлённый рейтинг мощнейших серверных систем, где, похоже, пропишется и NVIDIA DGX SaturnV второго поколения на 5280 ускорителях Tesla V100.

Директор Национальной лаборатории Ок-Ридж Томас Закария (Thomas Zacharia) в общении с представителями ресурса top500.org подчеркнул важность ввода в эксплуатацию такого производительного суперкомпьютера, как Summit:

«Один из наших коллективов разрабатывает алгоритм машинного обучения для Summit, чтобы помочь в выборе лучшего метода лечения рака у каждого конкретного пациента, — отметил г-н Закария. — Другая команда сегодня использует ресурсы Titan для проектирования и мониторинга реакторов на базе технологии управляемого термоядерного синтеза. Ещё одна группа специалистов использует машинное обучение, чтобы помочь классифицировать типы траекторий нейтрино, наблюдаемых в ходе различных экспериментов».

Томас Закария (Thomas Zacharia), фото knoxnews.com

Томас Закария (Thomas Zacharia), фото knoxnews.com

Впрочем, исключительно машинным обучением дело не ограничится. Директор лаборатории Ок-Ридж упомянул о таких вариантах использования Summit, как моделирование климата, решение задач из области релятивистской квантовой химии, вычислительной химии, астрофизики, физики плазмы и биофизики. Собственно, многие проекты уже запущены либо могут быть запущены на мощностях Titan, однако нехватка производительности является препятствием для углублённых исследований.

Комплекс зданий Национальной лаборатории Ок-Ридж

Комплекс зданий Национальной лаборатории Ок-Ридж

Длительная подготовка к запуску Summit объясняется не только необходимостью предварительного тестирования тысяч серверных узлов, но и задержкой со стороны IBM, которая пока не изготовила все заказанные ORNL процессоры POWER9. Со стороны NVIDIA, наоборот, задержек нет, ведь HPC-ускорители Tesla V100 поставляются клиентам уже не первый месяц.

«Сегодня Национальная лаборатория Ок-Ридж находится в завидном положении, — продолжил Томас Закария. — Мы располагаем уникальным опытом исследований в областях химии и физики материалов, нейтронной физики, ядерной физики, компьютерных наук и технических решений. Всё это в сочетании с талантом наших сотрудников позволяет решать проблемы и задачи, связанные с энергетикой, национальной безопасностью, производством и сетевой кибербезопасностью. Одна из наших основных целей заключается в том, чтобы стать ведущим исследовательским центром в мире. Это само по себе вдохновляет нас на новые свершения».

Постоянный URL: http://servernews.ru/961817
14.11.2017 [18:00], Иван Грудцын

NVIDIA строит суперкомпьютер на 5280 ускорителях Tesla V100

Год назад компания NVIDIA представила суперкомпьютер DGX SaturnV для исследований в области искусственного интеллекта. Система включала 125 серверных узла DGX-1 (стоимостью $129 000 каждый) с весьма достойным соотношением производительности и энергопотребления, равным 9,46 Гфлопс/Вт. В престижном рейтинге TOP500 годичной давности сервер занял почётное 28 место, но за год опустился на восемь строчек, и в Санта-Кларе было принято решение построить подобный суперкомпьютер с бóльшим количеством узлов — 660 шт. При этом вместо DGX-1 на основе HPC-ускорителей Tesla P100 (Pascal) была сделана ставка на более мощные одноимённые узлы, оснащённые ускорителями Tesla V100 (Volta) — по восемь штук на узел, как и в DGX SaturnV первого поколения.


Согласно подсчётам NVIDIA, решение задач из области глубинного обучения занимает у восьми адаптеров Tesla V100 почти в два с половиной раза меньше времени, чем у DGX-1 с восемью Tesla P100, а «чистая» производительность в вычислениях половинной точности (они же FP16 или, по определению NVIDIA, «AI-вычисления») выше почти в шесть раз. Суммарная производительность 124 узлов DGX-1/P100 составляет всего 21,25 Пфлопс FP16, тогда как 660 узлов DGX-1/V100 — 660 Пфлопс.

DGX-1 на базе Tesla V100

NVIDIA DGX-1

«Пробный» сервер DGX SaturnV с несколькими десятками узлов DGX-1/V100 прописался на 149 месте в TOP500 и на почётном 4 месте в Green500.

Соотношение производительности и энергопотребления выросло с 9,46 Гфлопс/Вт до 15,11 Гфлопс/Вт, но для сотен узлов нового DGX SaturnV всё равно необходимы порядка 2 МВт мощности. Таким образом, количество блоков питания измеряется уже не сотнями, как у прошлогоднего SaturnV, а тысячами. На один серверный узел DGX-1 по-прежнему приходится два 20-ядерных процессора Intel Xeon E5-2698 v4 (Broadwell-EP) с частотой от 2,2 до 3,6 ГГц. Объём оперативной памяти LRDIMM DDR4-2133 составляет 512 Гбайт на узел, также применяются четыре 1,92-Тбайт SSD-накопителя.

Судя по отсутствию нового DGX SaturnV на третьей строчке в TOP500, где он мог бы оказаться с ~30 Пфлопс в Linpack, сборка суперкомпьютера займёт ещё какое-то время. Параллельно NVIDIA принимает заказы на AI-серверы с DGX-1/V100 в качестве «строительного блока». Один такой «кирпич» (узел) стоит $149 000 — на 20 тыс. долларов дороже, чем аналог на Tesla P100.

Постоянный URL: http://servernews.ru/961485
14.11.2017 [13:00], Сергей Карасёв

Представлена юбилейная редакция мирового рейтинга суперкомпьютеров Top500

Обнародована юбилейная пятидесятая редакция рейтинга мощнейших вычислительных систем мира Top500. Забегая вперёд скажем, что лидерство сохранил китайский суперкомпьютер Sunway TaihuLight.

Суммарная производительность входящих в рейтинг вычислительных комплексов достигла 845 петафлопсов (квадриллионов операций с плавающей запятой в секунду). Для сравнения: шесть месяцев назад этот показатель равнялся 749 петафлопсам, а год назад — 672 петафлопсам.

Из 500 вошедших в рейтинг систем в 471 применяются процессоры Intel. Таким образом, доля этих суперкомпьютеров достигла 94,2 %. Ещё 14 комплексов полагаются на процессоры IBM Power.

Производительность наименее мощного суперкомпьютера в рейтинге составляет 548,7 терафлопса (триллиона операций с плавающей запятой в секунду). Полгода назад на последней строчке находилась система с быстродействием 432 терафлопса.

По общему количеству систем в рейтинге лидирует Китай, на счету которого 202 комплекса. Далее идут Соединённые Штаты со 143 системами. Япония с 35 суперкомпьютерами находится на третьем месте.

Лидирующую позицию, как уже отмечалось, продолжает удерживать китайский монстр Sunway TaihuLight, быстродействие которого составляет 93 петафлопса, а пиковая производительность теоретически может достигать 125 петафлопсов.

На второй строке располагается ещё одна система из КНР — Tianhe-2 (MilkyWay-2) с мощностью в 33,9 петафлопса. «Бронза» досталась швейцарской системе Piz Daint с 19,6 петафлопса.

Самый мощный российский суперкомпьютер — «Ломоносов-2» — располагается на 63 строке с быстродействием в 2,1 петафлопса. 

Постоянный URL: http://servernews.ru/961477
26.09.2017 [06:53], Алексей Степин

Производительность суперкомпьютера Tianhe-2 будет доведена до 95 петафлопс

Согласно спискам Top500 по состоянию на июнь 2017 года первым в мире по вычислительной мощности по-прежнему остаётся китайский суперкомпьютер Sunway TaihuLight с пиковой производительностью свыше 93 петафлопс. Мы уже рассказывали читателям о его составляющих, в частности, довольно уникальных по архитектуре процессорах.

Но у чемпиона появился опаснейший соперник, правда, родом тоже из КНР. Это суперкомпьютер Tianhe-2, занимавший до недавнего времени вторую строку в рейтинге Top500 с показателем пиковой производительности почти 34 петафлопса. Затем он был разогнан до 55 петафлопс, а теперь пришло время дать бой лидеру.

Tianhe-2: до и после

Tianhe-2: до и после

В последнем варианте Tianhe-2 базировался на связках Intel Xeon и Xeon Phi, таких узлов у него было 16 тысяч. В качестве межблочной связи использовался стандарт 10 Гбит/с с задержкой 1,57 микросекунды, объём оперативной памяти составлял 1,4 петабайт, объём хранимых данных — 12,4 петабайт. Максимальная скорость работы с «дисковой» подсистемой могла достигать 512 Гбайт/с.

Свежая кровь: сопроцессор Matrix-2000

Свежая кровь: сопроцессор Matrix-2000

В настоящее время Tianhe-2 подвергается самой серьёзной модернизации за всю свою рабочую карьеру. Новая система будет называться Tianhe-2A, а место ускорителей Xeon Phi в ней займут сопроцессоры Matrix-2000 с уникальной архитектурой, разработанной китайскими специалистами. Чип этот являет собой разновидность DSP, оптимизированную, однако, с прицелом на вычисления общего характера. Декларируется поддержка OpenMP/OpenCL.

Общий план системы и межузловых соединений

Общий план системы и межузловых соединений

В результате подобного апгрейда количество узлов в системе увеличится до 17792, а пиковая производительность при этом почти достигнет 95 петафплос (94,97 петафлопс в проекте). Сетевая подсистема также подвергнется модернизации и скорость передачи данных в среде увеличится до 14 Гбит/с, а латентность упадет до 1 микросекунды. Объём оперативной памяти нарастят до 3,4 петабайт, «дисковой» — до 19 петабайт, а скорость доступа к последней достигнет 1 Тбайт/с.

Старый узел на базе Xeon Phi (слева) и новый на базе Matrix-2000. Процессоры припаиваются непосредственно к плате

Старый узел на базе Xeon Phi (слева) и новый на базе Matrix-2000. Процессоры припаиваются непосредственно к плате

Вырастет и энергоэффективность: если раньше удельная производительность составляла 1,9 гигафлопс на ватт, то после модернизации этот показатель превысит 5 гигафлопс на ватт. Впрочем, «смены власти», скорее всего, не произойдет: если в тестах High Performance Linpack TaihuLight может достичь показателя 125,4 петафлопса, то прогнозы по Tianhe-2 скромнее и находятся в районе 70‒80 петафлопс.

Постоянный URL: http://servernews.ru/959041
19.06.2017 [12:20], Сергей Карасёв

Лидерство в новом рейтинге суперкомпьютеров Top500 сохранил китайский комплекс

Сегодня, 19 июня, обнародована 49 редакция рейтинга мощнейших вычислительных систем мира Top500: ознакомиться с обновлённым списком можно на официальном сайте проекта.

Лидирующую позицию продолжает удерживать китайский суперкомпьютер Sunway TaihuLight, насчитывающий 10 649 600 вычислительных ядер. Его быстродействие составляет 93 петафлопса (квадриллиона операций с плавающей запятой в секунду), а пиковая производительность теоретически может достигать 125 петафлопсов.

На второй строке располагается ещё один «китаец» — комплекс Tianhe-2 (MilkyWay-2). Он обладает быстродействием в 33,86 петафлопса, тогда как пиковая производительность достигает 54,9 петафлопса.

На третье место вырвалась швейцарская система Piz Daint. Этот суперкомпьютер подвергся модернизации, в результате которой быстродействие достигло 19,59 петафлопса. Показатель пиковой производительности — 25,33 петафлопса.

Таким образом, в тройке лидеров теперь отсутствуют системы из Соединённых Штатов. Самый мощный американский комплекс Titan отныне довольствуется четвёртой позицией: его быстродействие — 17,59 петафлопса.

Самым быстрым российским суперкомпьютером остаётся «Ломоносов-2», установленный в Московском государственном университете (МГУ). Его производительность достигает 2,10 петафлопса, пиковая производительность — 2,96 петафлопса. Это соответствует 59 позиции в нынешнем рейтинге.

Суммарное быстродействие всех входящих в рейтинг систем теперь составляет 749 петафлопсов — это на треть больше прошлогоднего результата. На системы с чипами  Intel (Xeon и Xeon Phi) приходится 464 суперкомпьютера из 500. Ещё 21 комплекс полагается на процессоры IBM Power, шесть — на чипы AMD Opteron. 

Постоянный URL: http://servernews.ru/954158
15.11.2016 [12:44], Александр Будик

Рейтинг суперкомпьютеров TOP500: самые интересные факты

В ходе конференции SC16, проходящей в Солт-Лейк-Сити, представлена сорок восьмая редакция списка самых быстрых суперкомпьютеров мира TOP500. Интересно наблюдать за сражением двух лидеров отрасли — Китая и США. В этом году они идут практически на равных по количеству систем в списке и их совокупной мощности, но с точки зрения престижа Китай выигрывает, занимая первую и вторую строчки рейтинга.

Самый быстрый суперкомпьютер в мире Sunway TaihuLight

Самый быстрый суперкомпьютер в мире Sunway TaihuLight

По-прежнему недосягаемым лидером остаётся Sunway TaihuLight с производительностью 93 петафлопс. Эта монструозная система включает почти 11 миллионов вычислительных ядер, а её потребляемая мощность достигает 15,4 МВт. За ней следует Tianhe-2 с производительностью 34 петафлопс. По энергоэффективности она существенно уступает лидеру. При количестве ядер 3,1 млн и в три раза меньшей производительности Tianhe-2 потребляет 17,8 МВт электроэнергии. Третью позицию занял суперкомпьютер Titan из США с производительностью 17,6 петафлопс. Также системы США завоевали четвёртую и пятую строчки рейтинга — Sequoia и Cori. Шестое и седьмое места удерживает Япония со своими системами Oakforest-PACS и легендарным K Computer, который, напомним, был построен ещё в 2011 году и стал первым в истории компьютером, преодолевшим рубеж 10 петафлопс. Далее в рейтинге следуют шведская разработка Piz Daint и две системы из США — Mira и Trinity.

Другой суперкомпьютер из Китая Tianhe-2 в этом году занял вторую позицию

Другой суперкомпьютер из Китая Tianhe-2 в этом году занял вторую позицию

По количеству суперкомпьютеров с списке TOP500 вслед за Китаем и США следует Германия с показателем 31. Япония занимает четвёртую позицию с количеством систем 27. Далее следуют Франция (20), Великобритания (13). Китай и США теперь включают по 171 суперкомпьютеру, хотя ещё год назад США были явным лидером, имея в TOP500 200 систем против 108 у Китая.

Совокупная производительность всех систем в списке составила 672 петафлопс, что на 60 % выше по сравнению с прошлым годом. Вклад суперкомпьютеров США в этот результат составляет 33,9 %, Китая — 33,3 %. Интересно отметить, что в рейтинге уже насчитывается 117 систем, преодолевших рубеж в 1 петафлопс.

Что касается энергоэффективности, то лидером здесь является система DXG SATURNV, разработанная компанией NVIDIA. Её особенностью являются новые ускорители P100, которые обеспечили 3,3-петафлопсному кластеру энергоэффективность 9,46 гигафлопс на ватт. Второе место занимает уже упомянутая выше система Piz Daint с показателем 7,45 гигафлопс на ватт.

Из 86 систем, использующих сопроцессоры в виде видеочипов, 60 оснащены NVIDIA GPU, 21 — Intel Xeon Phi, 1 — AMD FirePro, 1 — PEZY-технологией, 3 — одновременно используют NVIDIA GPU и Xeon Phi. Процессоры Intel используются в 92,4 % суперкомпьютеров. Количество систем на базе IBM Power составило 22. Доля AMD продолжает снижаться — теперь на её процессорах построено всего 7 систем из списка TOP500. Что касается коммуникационных технологий, то наиболее активно используются InfiniBand (187 систем), Gigabit Ethernet (206 систем), 10G Ethernet (178 систем), Intel Omni-Path (28 систем).  

Постоянный URL: http://servernews.ru/942710
21.06.2016 [10:05], Сергей Юртайкин

Лишённый американских чипов китайский суперкомпьютер признан самым мощным в мире

Впервые в истории рейтинг самых мощных в мире суперкомпьютеров Top500 возглавила китайская система, не использующая американские полупроводниковые технологии, передаёт The Wall Street Journal.

Речь идёт о машине Sunway TaihuLight, расположенной в Национальном центре суперкомпьютеров в городе Уси (провинция Цзянсу, КНР). Она использует процессоры, созданные в государственном Шанхайском центре разработки высокопроизводительных микросхем (Shanghai High Performance IC Design Center).

insidehpc.com

insidehpc.com

Производительность суперкомпьютера измеряется 93 петафлопсами, что сразу втрое больше по сравнению с прежним лидером рейтинга — системой Tianhe-2, которая также находится в Китае и которая использует процессоры Intel.

Sunway TaihuLight содержит около 41 тыс. чипов с 260 вычислительными ядрами каждый, что соответствует примерно 10,65 млн ядер. Для сравнения, у самого быстрого американского супер-ПК насчитывается в общей сложности 560 тыс. ядер.

Sunway TaihuLight применяется для расчётов при производстве, составлении прогнозов погоды и для анализа больших объёмов данных.

wsj.com

wsj.com

Среди российских суперкомпьютеров выше всех в Top500 находится «Ломоносов-2», который занял 41-е место в рейтинге, имея производительность 2,1 петафлопса. Годом ранее машина находилась на 31-й позиции.  

Постоянный URL: http://servernews.ru/934940
Система Orphus