Материалы по тегу: thunderx

01.10.2024 [09:17], Сергей Карасёв

Isambard 2, один из первых Arm-суперкомпьютеров, отправился на покой

30 сентября 2024 года, по сообщению Datacenter Dynamics, прекращена эксплуатация британского вычислительного комплекса Isambard 2. Это был один из первых в мире суперкомпьютеров, построенных на процессорах с архитектурой Arm. Система отправилась на покой после примерно шести лет работы.

Isambard 2 назван в честь Изамбарда Кингдома Брюнеля — британского инженера, ставшего известной фигурой в истории Промышленной революции. Проект Isambard 2 реализован совместно компанией Cray, Метеорологической службой Великобритании и исследовательским консорциумом GW4 Alliance, в который входят университеты Бата, Бристоля, Кардиффа и Эксетера.

Запуск суперкомпьютера состоялся в мае 2018 года. В основу Isambard 2 положены узлы Cray XC50. Задействованы 64-битные процессоры Marvell ThunderX2 с архитектурой Arm v8-A и ускорители NVIDIA P100. Общее количество вычислительных ядер — 20 992. Это одна из немногих систем на базе серии чипов ThunderX.

 Источник изображения: Marvell Technology/YouTube

Источник изображения: Marvell Technology/YouTube

«После шести лет службы суперкомпьютер Isambard 2 наконец-то отправляется на пенсию. С мая 2018-го он был первым в мире серийным суперкомпьютером на базе Arm, использующим процессоры ThunderX2. Сегодня ему на смену приходит Isambard 3, содержащий Arm-чипы NVIDIA Grace», — сообщил профессор Саймон Макинтош-Смит (Simon McIntosh-Smith), руководитель проекта, глава группы микроэлектроники в Университете Бристоля.

В основу Isambard 3 лягут 384 суперпроцессора NVIDIA Grace. Эта система, как ожидается, обеспечит в шесть раз более высокую производительность и в шесть раз лучшую энергоэффективность по сравнению с Isambard 2. Пиковое быстродействие FP64 у нового суперкомпьютера составит 2,7 Пфлопс при энергопотреблении менее 270 кВт. В дальнейшем вычислительные мощности Isambard 3 планируется наращивать. Комплекс будет применяться при решении сложных задач в области ИИ, медицины, астрофизики, биотехнологий и пр.

Постоянный URL: http://servernews.ru/1111780
18.08.2020 [22:16], Алексей Степин

Серверные ARM-процессоры Marvell ThunderX3: 60 ядер в SCM, 96 ядер в MCM, SMT4 в подарок

Последние дни оказались богатыми на анонсы новых процессоров. Компания IBM представила новейшие POWER10 с поддержкой памяти OMI DDR5 и PCI Express 5.0, Intel анонсировала Xeon Ice Lake-SP, которые, наконец, получили поддержку PCIe 4.0. Третьей в этом списке можно назвать Marvell, которая на мероприятии Hot Chips 32 рассказала подробности о последнем, третьем поколении ARM-процессоров ThunderX, формально анонсированном ещё весной этого года.

 Источник изображений: ServeTheHome

Источник изображений: ServeTheHome

Процессоры с архитектурой ARM покорили сегмент мобильных устройств, но в последние несколько лет интереснее другая тенденция — данная архитектура ложится в основу всё новых и новых «крупных» процессоров, предназначенных для серверного применения. И как показывает практика, когда-то считавшаяся «слабой» архитектура оказывается вовсе не такой.

Она успешно соперничает с x86, особенно там, где необходима высокая плотность упаковки вычислительных мощностей и высокая энергоэффективность. Примеры AWS Graviton2 и кастомных процессоров Google тому доказательством, а разработка Fujitsu, процессор A64FX, и вовсе лежит в основе мощнейшего суперкомпьютера планеты, японского кластера Fugaku.

Одной из компаний, прилагающих серьёзные усилия к освоению серверного рынка с помощью архитектуры ARM, является Marvell. Если первые процессоры ThunderX, доставшиеся в наследство от Broadcom, сложно назвать успешным, то уже второе поколение показало себя неплохо, и, судя по всему, третье, наконец, готово к массовому внедрению. Напомним, в отличие от домашних проектов AWS и Google, процессоры ThunderX3 должны получить развитую поддержку многопоточности, на уровне SMT4, что больше, чем у x86, но меньше, чем у POWER10.

При этом максимальное количество ядер у ThunderX3 впечатляет. Теперь известно, что о 96 ядрах речь идёт только в двухкристалльной компоновке (этим подход Marvell напоминает IBM POWER10, также существующий в двух вариантах). Один кристалл может нести до 60 ядер, что меньше, чем у Graviton2, но, во-первых, ненамного, а во-вторых, с лихвой компенсируется наличием SMT. SMT4 может дать 240 или 384 потока в зависимости от версии, и наверняка это понравится крупным облачным провайдерам, поскольку позволит разместить беспрецедентное количество VM в рамках одного сокета.

Однопоточная производительность не осталась без внимания. Компания заявила о 30% превосходстве над ThunderX2 в пересчёте на поток. В целом же, третье поколение ThunderX должно быть в 2-3 раза быстрее второго. Архитектурно процессор основывается на наборе инструкций ARM v8.3, однако сказано о частичной поддержке ARM v8.4/8.5.

В споре о том, что эффективнее для связи ядер между собой, кольцевые шины или единая mesh-сеть, единого мнения нет. Intel предпочитает первый подход, но Marvell остановила свой выбор на втором. Как обычно, на внешнем кольце расположены кеш (80 Мбайт L3 на кристалл), блоки управление питанием, а также контроллеры памяти, PCI Express и межпроцессорной шины (в данном случае CCPI).

Поддержка SMT4 реализована полностью аппаратно. С точки зрения операционной системы каждый поток ThunderX3 выглядит, как обычный процессор с архитектурой ARM. При этом реализация столь развитой многопоточности привела всего лишь к 5% увеличению площади кристалла в сравнении с однопоточной реализацией.

Разделение ресурсов ядра у нового процессора динамическое, осуществляется оно в четырёх точках: выборка, когда потока с меньшим количеством инструкций получают более высокий приоритет; выполнение, работающее по такому же принципу; планирование, которое базируется на «возрасте» потока; наконец, «отставка» — здесь приоритет получают потоки с наибольшим количеством инструкций. Оптимизация многопоточности позволяет Marvell говорить о практически линейной масштабируемости новых процессоров, по крайней мере, в пределах одного разъёма. В зависимости от числа инструкций на ядро коэффициент прироста может варьироваться от x1,28 до 2,21.

Подсистема ввода-вывода у новинок достаточно развитая. Контроллер памяти имеет 8 каналов и поддерживает DDR4-3200. За поддержку PCI Express отвечают 16 раздельных контроллеров, поддерживающих четвёртую версию стандарта. Это должно обеспечивать высокий уровень производительности при подключении 16 NVMe-накопителей, на каждый из которых придётся по четыре линии PCIe.

Заявлено о «тонком» управлении питанием, но деталей Marvell не приводит и остаётся только догадываться, насколько эта подсистема ThunderX3 продвинута. Производится новый процессор на мощностях TSMC с использованием техпроцесса 7 нм. Версия с одним 60-ядерным кристаллом выйдет на рынок уже в этом году, а вариант с двумя кристаллами и большим общим количеством ядер начнет поставляться позже, в 2021 году. Компания уже работает над ThunderX4, ожидается что эти процессоры будут использовать техпроцесс 5 нм и увидят свет в 2022 году.

Постоянный URL: http://servernews.ru/1018552
11.05.2018 [12:30], Алексей Степин

Процессоры Cavium ThunderX2 стали доступны массово

Медленно, но верно процессоры с архитектурой, отличной от x86, становятся доступными всем, а не только избранным заказчикам. Так, чипы ThunderX2 разработки Cavium проделали долгий путь: ещё в прошлом году на ISC 2017 компания объявила о создании второго поколения процессоров с кодовым названием ThunderX. Эти решения должны были показать миру, что ARM не является «слабой архитектурой», пригодной лишь для мобильных применений. И действительно, в максимальной конфигурации чип ThunderX2 мог похвастаться наличием 54 ядер с частотой до 3 ГГц, поддержкой двухсокетных конфигураций и интегрированным сетевым контроллером Ethernet класса 100G. Доступные решения, однако, появились существенно позже: лишь в марте этого года компания GIGABYTE продемонстрировала рабочую станцию на базе ThunderX2. Но теперь процессоры Cavium ThunderX2 доступны официально и, что называется, «в металле», поскольку первый анонс 31 мая 2016 года всё-таки был бумажным. Не все выдерживают трудности на пути внедрения новой архитектуры. К примеру, Qualcomm, как оказалось, и вовсе планирует отказаться от выпуска серверных процессоров, а ведь её 48-ядерные чипы Centriq 2400 были основным соперником семейства ThunderX2.

Любопытно, что архитектурно ThunderX2 не является прямым наследником ThunderX, а продолжает собой разработку Broadcom под названием Vulcan. На текущий момент компании удалось заручиться партнёрством у таких известных производителей, как Cray, HPE, Atos и Penguin Computing. Модельный ряд выглядит вполне «взросло» и включает в себя 40 различных версий ThunderX2. Самый мощный вариант с 54 ядрами пока не выпущен, но доступны версии с количеством ядер от 16 до 32 и частотой до 2,5 ГГц (3,0 ГГц в турборежиме). Имеется развитая поддержка многопоточности, причём, разная для разных моделей процессора — количество потоков на ядро может варьироваться от 1 до 4, что ставит ThunderX2 в один ряд с такими чипами, как POWER9, которые также поддерживают SMT4. Компания-разработчик позиционирует свои решения в качестве соперников новейшим Intel Xeon и всерьёз намерена конкурировать с Intel во всех отраслях, от HPC и суперкомпьютеров до облачных решений.

 Рабочая станция на базе Cavium ThunderX2

Рабочая станция на базе Cavium ThunderX2

О производительности Cavium ThunderX2 известно мало; производитель пока не разглашает соответствующих данных, ограничиваясь довольно туманными заявлениями о «сопоставимости с наиболее мощными моделями Xeon». В теории это далеко не так, поскольку самый быстрый Xeon с архитектурой Skylake развивает в пике до 2000 гигафлопс, а ThunderX2 — лишь 560 гигафлопс, но теория в мире HPC, как мы уже знаем, довольно часто расходится с практикой. Цифра 560 Гфлопс взята не с потолка, она выведена из характеристик 64-узлового кластера Apollo 70 мощностью 72 Тфлопс. Три таких кластера будут установлены в различных университетах Великобритании, все они будут использовать старшую на данный момент 32-ядерную версию ThunderX2. Компания Cray мыслит более широкими масштабами и в её планах значится создание системы Isambard (Cray XC50) c более чем 10 тысячами процессоров ThunderX2 на борту. От этого монстра ожидаются показатели пиковой производительности в районе 175 Тфлопс.

 Процессоры ThunderX2 используют свой разъём и имеют 8 каналов DDR4

Процессоры ThunderX2 используют свой разъём и имеют 8 каналов DDR4

Надо отметить, что Cavium хорошо понимает современные проблемы HPC, и при создании ThunderX2 усилия были сосредоточены не на достижении «чистой» вычислительной мощности, а на обеспечении высокой пропускной способности подсистемы памяти. Восьмиканальный контроллер DDR4 в Cavium X2 поддерживает до 16 модулей на разъём с максимальным объёмом памяти для системы 2S, составляющим 4 Тбайт. Это даёт Cavium право заявлять о 33 % превосходстве над Intel, ведь Xeon Scalable могут похвастаться лишь шестиканальным контроллером памяти. Цены на новые процессоры установлены более чем конкурентоспособные: при массовых заказах чипы ThunderX2 в зависимости от версии стоят от $800 до $1795 — существенно дешевле, нежели Xeon Scalable. В пересчёте на доллар это даёт вдвое более высокие показатели, нежели у Intel, но, опять-таки, это утверждение Cavium подлежит проверке практикой. Долго ждать её не придётся: помимо упомянутых систем, серверы на базе ThuhderX2 также будут установлены в одной из Сандийских национальных лабораторий, задействованы в проекте Mont-Blanc и даже в облачной платформе Microsoft Azure.

Постоянный URL: http://servernews.ru/969531
25.06.2017 [16:04], Алексей Степин

ISC 2017: решения на базе процессоров Cavium ThunderX2

Процессорная архитектура ARM прочно заняла своё место в различных мобильных устройствах — смартфонах и планшетах, широко представлена она в домашних маршрутизаторах и ТВ-приставках, но о заметном проникновении на рынок серверных решений, пожалуй, можно говорить лишь сейчас, хотя разговоры об этом велись уже давно. Ранее такие разработчики, как Applied Micro и Cavium уже показывали процессоры X-Gene и ThunderX соответственно.

Производители серверов проявили интерес, поскольку вопросы энергоэффективности в крупных ЦОД и суперкомпьютерных системах стоят остро, но широкому внедрению ARM мешала относительно слабая программная поддержка. С тех пор ситуация изменилась в лучшую сторону и Cavium, а также такие компании, как Bull, привезли на ISC 2017 свои решения на базе новейших процессоров ThunderX2.

В сравнении с первым поколением ThunderX новые чипы сделали громадный шаг вперёд: теперь производительность в однопоточном режиме серьёзно выросла, а также подросли тактовые частоты. Каждый процессор ThunderX2 может содержать до 54 ядер на базе оригинальной версии архитектуры ARMv8-A, поддерживающей внеочередное исполнение команд. Тактовая частота может достигать 3 ГГц, что находится вполне на уровне решений с архитектурой x86. Изначально говорилось о 2,5‒2,6 ГГц, но разработчикам, похоже, удалось справиться и с более высокими частотами.

Каждое ядро располагает 64 Кбайт кеша инструкций и 40 Кбайт кеша данных, объём общего разделяемого кеша может достигать 32 Мбайт. Новые процессоры Cavium получили шестиканальный контроллер DDR4 и не страдают от нехватки пропускной способности подсистемы памяти; производитель говорит о двух-трёхкратном приросте производительности в сравнении с ThunderX, и, скорее всего, эти данные вполне правдивы. Точных данных о тепловыделении нет, но для 54 ядер встречается цифра 95 ватт, что весьма немного в сравнении с Xeon, Opteron и EPYC.

Если решения на базе x86, как правило, требуют дополнительной, и, порой, весьма непростой логики для поддержки дисковых подсистем и сетевых соединений, то ThunderX2 в такой логике не нуждаются: они не только имеют встроенный контроллер PCI Express 3.0 (16 линий на процессор), чем в наши дни никого не удивишь, но также располагают интегрированными контроллерами SATA (до 24 устройств на платформу) и несколькими сетевыми контроллерами Ethernet с поддержкой скоростей 10, 25, 40, 50 и 100 Гбит/с.

Последнее существенно облегчает задачу построения кластерных систем на базе новых процессоров Cavium. Применение продвинутого 14-нм техпроцесса класса FinFET ставит ThunderX2 в один ряд с новейшими разработками Intel и AMD, а компания-разработчик уже планирует выпуск ThunderX3, которые получат поддержку новейшей шины PCI Express 4.0 и протокола NVMe. А пока серия ThunderX2 будет выпускаться в четырёх вариантах: CP для облачных применений, ST для больших баз данных и параллельных вычислений, SC для веб-сферы и систем безопасности и NT для медиа-серверов и серверов приложений.

Как видно из снимков, на конференции ISC 2017 процессоры Cavium Thunder X2 были представлены весьма широко: в основном, в виде одно- и двухпроцессорных решений как в обычном форм-факторе, так и компактном лезвийном — последний в наши дни применяется всё шире. Устанавливаются новые чипы точно так же, как и обычные процессоры Xeon и EPYC, в разъём типа LGA, что облегчает задачу модернизации систем на их основе, но пока не ясно, устоялся ли определённый тип разъёма для серверных процессоров с архитектурой ARM. Появление единого разъёма сыграло бы этой архитектуре лишь на руку.

Отдельного внимания заслуживают решения французской фирмы Bull — давнего игрока на компьютерном рынке. Она продемонстрировала вычислительные модули Sequana X1310, а также ряд других решений. Вычислительные модули весьма интересны: каждый из них, занимая стандартный корпус формата 1U, имеет внутри три системные платы с двумя процессорами ThunderX2 на каждой. На 6 процессоров приходится 48 слотов DDR4 (8 слотов на чип), а тепло отводится с помощью специализированной системы жидкостного охлаждения.

Обратим внимание: каждая системная плата с двумя разъёмами под процессоры Cavium ThunderX2 очень проста: по сути, кроме процессоров, модулей DIMM и стабилизаторов питания на ней ничего нет. Можно отметить два слота PCIe x16 (по слоту на процессор), батарейку, поддерживающую настройки firmware, а также традиционный модуль удалённого управления ASpeed, который встречается практически на любой серверной плате для процессоров x86. Такая простота означает низкую себестоимость, а компактность и модульность позволяют составлять из этих «строительных блоков» систему практически любой производительности, ограниченную лишь мощностью подсистемы питания и охлаждения в ЦОД.

Похожие системы представила и компания Penguin Computing, которая специализируется на разработке, постройке и поддержке высокопроизводительных вычислительных систем на базе открытых архитектур и решений. Она принимает активное участие в проекте OpenPOWER, но не прошла и мимо нового процессора Cavium. Её система Tundra ES интересна тем, что использует ещё более компактные вычислительные модули, нежели Bull Sequana X1000. Охлаждаться они могут как традиционными вентиляторами, так и централизованной жидкостной системой охлаждения.

Сами модули могут использовать различные архитектуры, но в данном контексте интерес представляют прототипы под названием Valkre, которые существуют также и в традиционном 19-дюймовом формате. Интересно, что в экспозиции замечены как минимум две разновидности системных плат: в Valkre 1030c (с воздушным охлаждением) используется плата с синей паяльной маской производства GIGABYTE, а вот в другой системе цвет печатной платы зелёный, а разработчик неизвестен. Компоновка обеих плат проста, что ещё раз подтверждает преимущества, реализованные Cavium в процессорах ThunderX2. Рост популярности ARM в серверной сфере налицо: если такие крупные производители, как Bull, обратили внимание на эту архитектуру, значит у неё определённо есть будущее.

Постоянный URL: http://servernews.ru/954474