Материалы по тегу: isc 2020

27.06.2020 [18:54], Алексей Степин

ISC 2020: NEC анонсировала новые векторные ускорители SX-Aurora

В японском сегменте рынка супервычислений продолжает доминировать свой, уникальный подход к построению систем класса HPC. Fujitsu сделала ставку на гомогенную архитектуру A64FX с памятью HBM2 и заняла первое место в Top500, но и другая японская компания, NEC, не отказалась от своего видения суперкомпьютерной архитектуры.

На предыдущей конференции SC19 NEC пополнила свой арсенал новыми ускорителями SX-Aurora 10E, которые получили более быстрые сборки HBM2. О новых ускорителях «Type 20» речь заходила ещё до начала эпидемии COVID-19; к сожалению, она внесла свои коррективы и анонс новинок состоялся лишь сейчас, летом 2020 года.

Изначально процессор SX-Aurora, используемый во всей серии ускорителей «Type 10» имеет 8 векторных блоков, каждый из которых дополнен 2 Мбайт кеша и 6 сборок памяти HBM2 общим объёмом 24 или 48 Гбайт. Из-за сравнительно грубого 16-нм техпроцесса уровень тепловыделения достаточно высок и составляет примерно 225 Ватт. В отличие от Fujitsu A64FX, NEC SX-Aurora требует для своей работы управляющего хост-процессора, и обычно компания комбинирует его с Intel Xeon, но существуют варианты и с AMD EPYC второго поколения.

ISC 2018: HPC-модуль с восемью векторными ускорителями NEC SX-Aurora Type 10

ISC 2018: HPC-модуль с восемью векторными ускорителями NEC SX-Aurora Type 10

Это роднит SX-Aurora с более широко распространёнными ускорителями на базе графических процессоров, однако позиционирование у них всё-таки выглядит иначе. ГП-ускорители, по мнению NEC, гораздо сложнее в программировании, хотя и обеспечивают высокую производительность.

Свою же разработку компания относит к решениям с похожим уровнем производительности, но гораздо более простым в программировании. Упор также делается на высокую пропускную способность памяти, составляющую у новинок «Type 20» 1,5 Тбайт/с.

Новая версия NEC Vector Engine, VE20, структурно, скорее всего, не изменилась. Вместо восьми ядер новый процессор получил 10, и, как уже было сказано, новые сборки HBM2, в результате чего ПСП удалось поднять с 1,35 до 1,5 Тбайт/с, а вычислительную мощность с 2,45 до 3,07 Тфлопс.

В серии пока представлено два новых ускорителя, Type 20A и 20B, последний аналогичен по конфигурации решениям Type 10 и использует усечённый вариант процессора с 8 ядрами. Говорится о неких архитектурных улучшениях, но деталей компания пока не раскрывает.  Оба варианта процессора VE20 работают на частоте 1,6 ГГц, а прирост производительности в сравнении с VE10 достигается в основном за счёт повышения ПСП. 

Похоже, VE20 лишь промежуточная ступень. В 2022 году планируется выпуск процессора VE30, который получит подсистему памяти с пропускной способностью свыше 2 Тбайт/с, в 2023 должен появиться его наследник VE40, но настоящий прорыв, судя по всему, откладывается до 2024 года, когда NEC планирует представить VE50, об архитектуре и возможностях которого пока ничего неизвестно.

Постоянный URL: http://servernews.ru/1014417
26.06.2020 [20:16], Алексей Степин

Прикоснуться к славе: 2U-сервер Fujitsu с ARM-процессорами A64FX можно приобрести отдельно

Суперкомпьютер Fugaku, установленный в японском центре RIKEN и использующий процессоры A64FX разработки Fujitsu, занял первое место в рейтинге Top500. Это серьезная победа архитектуры ARM. Но использовать преимущества A64FX можно и не в столь крупных масштабах.

Японская компания HPC Systems предлагает к приобретению узлы Fujitsu PrimeHPC FX700 на базе процессоров, из которых построен Fugaku.

Как уже известно, сейчас Fugaku имеет 7,3 миллиона активных ядер и развивает 435 Пфлопс, что в 2,8 раза превосходит показатели бывшего лидера Top500. Сейчас японский монстр используется в исследованиях для борьбы с COVID-19. Изначально было неясно, будут ли доступны решения на базе процессоров A64FX отдельно, или только в составе крупных кластерных систем.

Однако на днях японская компания HPC Systems объявила о начале продаж узлов Fujitsu PrimeHPC FX700. Узел выполнен в стоечном корпусе высотой 2U, он содержит до 8 вычислительных модулей, каждый из которых оснащён 48-ядерным чипом A64FX с частотой 1,8 или 2 ГГц. Узлы используют воздушное охлаждение.

Помимо 48 ядер, как известно, A64FX содержит и четыре отдельных «управляющих» ядра, так что хост-процессор ему не нужен. Объём оперативной памяти составляет 256 Гбайт (по 32 Гбайт набортной HBM2 на CPU), каждый модуль дополнен SSD-накопителем объёмом 512 Гбайт. В базовой комплектации сетевая часть представляет собой всего лишь Gigabit Ethernet, однако легко модернизируется до InfiniBand EDR или высокоскоростной версии Ethernet.

Работает система под управлением Red Hat Enterprise Linux 8, в комплект поставки входит компилятор Fujitsu, менеджер управления Bright Cluster Manager и программный стек OpenHPC. Систему можно использовать для разработки и отладки ПО, которое впоследствии будет работать на более мощной машине.

Цены на Fujitsu PrimeHPC FX700 стартуют с отметки ¥4,155,330 (примерно $40 тысяч) за вариант с двумя вычислительными узлами. Предложение действительно до конца года. Техническую документацию можно найти на сайте Fujitsu.

Постоянный URL: http://servernews.ru/1014367
25.06.2020 [21:10], Алексей Степин

ISC 2020: Tachyum анонсировала 128-ядерные ИИ-процессоры Prodigy и будущий суперкомпьютер на их основе

Машинное обучение в последние годы развивается и внедряется очень активно. Разработчики аппаратного обеспечения внедряют в свои новейшие решения поддержку оптимальных для ИИ-систем форматов вычислений, под этот круг задач создаются специализированные ускорители и сопроцессоры.

Словацкая компания Tachyum достаточно молода, но уже пообещала выпустить процессор, который «отправит Xeon на свалку истории». О том, что эти чипы станут основой для суперкомпьютеров нового поколения, мы уже рассказывали читателям, а на конференции ISC High Performance 2020 Tachyum анонсировала и сами процессоры Prodigy, и ИИ-комплекс на их основе.

Запуск готовых сценариев машинного интеллекта достаточно несложная задача, с ней справляются даже компактные специализированные чипы. Но обучение таких систем требует куда более внушительных ресурсов. Такие ресурсы Tachyum может предоставить: на базе разработанных ею процессоров Prodigy она создала дизайн суперкомпьютера с мощностью 125 Пфлопс на стойку и 4 экзафлопса на полный комплекс, состоящий из 32 стоек высотой 52U.

Основой для новой машины является сервер-модуль собственной разработки Tachyum, системная плата которого оснащается четырьмя чипами Prodigy. Каждый процессор, по словам разработчиков, развивает до 625 Тфлопс, что дает 2,5 Пфлопс на сервер. Компания обещает для новых систем трёхкратный выигрыш по параметру «цена/производительность» и четырёхкратный — по стоимости владения. При этом энергопотребление должно быть на порядок меньше, нежели у традиционных систем такого класса.

Архитектура Prodigy представляет существенный интерес: это не узкоспециализированный чип, вроде разработок NVIDIA, а универсальный процессор, сочетающий в себе черты ЦП, ГП и ускорителя ИИ-операций. Структура кристалла построена вокруг концепции «минимального перемещения данных». При разработке Tachyum компания принимала во внимание задержки, вносимые расстоянием между компонентами процессора, и минимизировала их.

Процессор Prodigy может выполнять за такт две 512-битные операции типа multiply-add, 2 операции load и одну операцию store. Соответственно то, что каждое ядро Prodigy имеет восемь 64-бит векторных блока, похожих на те, что реализованы в расширениях Intel AVX-512 IFMA (Integer Fused Multiply Add, появилось в Cannon Lake). Блок вычислений с плавающей точкой поддерживает двойную, одинарную и половинную точность по стандартам IEEE. Для ИИ-задач имеется также поддержка 8-битных типов данных с плавающей запятой.

Векторные и матричные операции — сильная сторона Prodigy. На перемножении-сложении матриц размерностью 8 × 8 ядро развивает 1024 Флопс, используя 6 входных и 2 целевых регистра (в сумме есть тридцать два 512-бит регистра). Это не предел, разработчик говорит о возможности увеличения скорости выполнения этой операции вдвое. Tachyum обещает, что система на базе Prodigy станет первым в мире ИИ-кластером, способным запустить машинный интеллект, соответствующий человеческому мозгу.

С учётом заявлений о 10-кратной экономии электроэнергии и 1/3 стоимости от стоимости Xeon, это заявление звучит очень сильно. Но Prodigу — не бумажный продукт-однодневка. Tachyum разработала не только сам процессор, но и всю необходимую ему сопутствующую инфраструктуру, включая и компилятор, в котором реализованы оптимизации в рамках «минимального перемещения данных».

Новинка разрабона с использованием 7-нм техпроцесса, максимальное количество ядер с вышеописанной архитектурой — 64. Помимо самих ядер, кристалл T864 содержит восьмиканальный контроллер DDR5, контроллер PCI Express 5.0 на 64 (а не 72, как ожидалось ранее) линии и два сетевых интерфейса 400GbE. При тактовой частоте 4 ГГц Prodigy развивает 8 Тфлопс на стандартных вычислениях FP32, 1 Пфлоп на задачах обучения ИИ и 4 Петаопа в инференс-задачах.

Самая старшая версия, Tachyum Prodigy T16128, предлагает уже 128 ядер с частотой до 4 ГГц, 12 каналов памяти DDR5-4800 (но только 1DPC и до 512 Гбайт суммарно), 48 линий PCI Express 5.0 и два контроллера 400GbE. Производительность в HPC-задачах составит 16 Тфлопс, а в ИИ — 262 Тфлопс на обучении и тренировке. 

Системные платы для Prodigy представлены, как минимум, в двух вариантах: полноразмерные четырёхпроцессорные для сегмента HPC и компактные однопроцессорные для модульных систем высокой плотности. Полноразмерный вариант имеет 64 слота DIMM и поддерживает модули DDR5 объёмом до 512 Гбайт, что даёт 32 Тбайт памяти на вычислительный узел.

Сам узел полностью совместим со стандартами 19″ и Open Compute V3, он может иметь высоту 1U или 2U и поддерживает питание напряжением 48 Вольт. Плата имеет собственный BIOS UEFI, но для удалённого управления в ней реализован открытый стандарт OpenBMC.

Tachyum исповедует концепцию универсальности, но всё-таки узлы для HPC-систем на базе Prodigy могут быть нескольких типов — универсальные вычислительные, узлы хранения данных, а также узлы управления. В качестве «дисковой подсистемы» разработчики выбрали SSD-накопители в формате NF1, подобные представленному ещё в 2018 году накопителю Samsung.

Таких накопителей в корпусе системы может быть от одного до 36; поскольку NF1 существенно крупнее M.2, поддерживаются модели объёмом до 32 Тбайт, что даёт почти 1,2 Пбайт на узел. Стойка с модулями Prodigy будет вмещать до 50 модулей высотой 1U или до 25 высотой 2U. Согласно идее о минимизации дистанций при перемещении данных, сетевой коммутатор на 128 или 256 портов 100GbE устанавливается в середине стойки.

Такая конфигурация работает в системе с числом стоек до 16, более масштабные комплексы предполагается соединять между собой посредством коммутатора высотой 2U c 64 портами QSFP-DD, причём поддержка скорости 800 Гбит/с появится уже в 2022 году. 512 стоек могут объединяться посредством высокопроизводительного коммутатора CLOS, он имеет высоту 21U и также получит поддержку 800 Гбит/с в дальнейшем.

Компания активно поддерживает открытые стандарты: применён загрузчик Core-Boot, разработаны драйверы устройств для Linux, компиляторы и отладчики GCC, поддерживаются открытые приложения, такие, как LAMP, Hadoop, Sparc, различные базы данных. В первом квартале 2021 года ожидается поддержка Java, Python, TensorFlow, PyTorch, LLVM и даже операционной системы FreeBSD.

Любопытно, что существующее программное обеспечение на системах Tachyum Prodigy может быть запущено сразу в виде бинарных файлов x86, ARMv8 или RISC-V — разумеется, с пенальти. Производительность ожидается в пределах 60 ‒ 75% от «родной архитектуры», для достижения 100% эффективности всё же потребуется рекомпиляция. Но в рамках контрактной поддержки компания обещает помощь в этом деле для своих партнёров.

Разумеется, пока речи о полномасштабном производстве новых систем не идёт. Эталонные платформы Tachyum обещает во второй половине следующего года. Как обычно, сначала инженерные образцы получают OEM/ODM-партнёры компании и системные интеграторы, а массовые поставки должны начаться в 4 квартале 2021 года. Однако ПЛИС-эмуляторы Prodigy появятся уже в октябре этого года, инструментарий разработки ПО — и вовсе в августе.

Планы у Tachyum поистине наполеоновские, но её разработки интересны и содержат целый ряд любопытных идей. В чём-то новые процессоры можно сравнить с Fujitsu A64FX, которые также позволяют создавать гомогенные и универсальные вычислительные комплексы. Насколько удачной окажется новая платформа, говорить пока рано.

Постоянный URL: http://servernews.ru/1014281
25.06.2020 [18:37], Владимир Мироненко

Суперкомпьютеры EuroHPC имеют неплохую производительность, но до экзафлопса пока далеко

Всего год, а может быть и меньше, отделяет EuroHPC от запуска новейших суперкомпьютеров, созданных в рамках проектов этой организации. В связи с этим обозреватель Primeurmagazine Эд Эммен (Ad Emmen) проанализировал присутствие EuroHPC в последнем издании рейтинга TOP500.

В 2020 году в TOP500 вошли 96 европейских систем общей производительностью 379 петафлопс. По сравнению с предыдущим рейтингом выросла их общая производительность, хотя количество систем не увеличилось. Сейчас устанавливаются все более и более мощные суперкомпьютеры, но аналитик отметил, что даже если объединить все европейские системы, вошедшие в TOP500, Европа всё ещё далека до суммарной производительности систем в экзафлопс.

Если говорить только о странах, входящих в EuroHPC, то в TOP500 присутствует 93 их системы. На системы EuroHPC приходится порядка 17 % общей производительности, и этот показатель не сильно изменился с годами. И европейская система никогда не возглавляла топ-10 суперкомпьютеров.

В настоящее время в топ-10 входят три системы EuroHPC. Это HPC5 итальянской нефтегазовой компании Eni, Marconi-100, находящаяся в исследовательском центре CINECA в Италии, а также замыкающая десятку Piz Daint, установленная в Швейцарском национальном суперкомпьютерном центре (CSCS) в Лугано (Швейцария).

Таким образом, на EuroHPC приходится треть суперкомпьютеров в Топ-10, что соответствует первоначальной цели организации. Если говорить о Топ-100, то в этот рейтинг входит в среднем 35 европейских систем, что также составляет одну треть. Напомним, что проект EuroHPC направлен на укрепление независимости Европейских стран в области высокопроизводительных вычислений, на него придётся более 1€ млрд.

Постоянный URL: http://servernews.ru/1014269
24.06.2020 [17:42], Алексей Степин

Новые HPC-решения РСК на ISC 2020: узлы Tornado, универсальная СЖО и SDS Lustre

Компания, а вернее, группа компаний РСК (RSC) — ведущий российский производитель суперкомпьютерных систем, чьи решения активно используются в борьбе с COVID-19. К примеру, не столь давно кластер суперкомпьютерного центра Российской академии наук «МВС-10П ОП» был модернизирован и получил новые вычислительные узлы на базе Xeon Scalable второго поколения.

Мимо такого мероприятия, как конференция ISC High Performance 2020 столь серьезный производитель пройти не мог и приурочил к проходящему ныне мероприятию анонс своих новых решений — как аппаратных модулей для создания систем класса HPC, так и программных новинок.

Разработкой и созданием суперкомпьютеров РСК занимается давно и присутствует на рынке с 2009 года, на её счету ряд инновационных решений. Плотность вычислений продолжает расти, растут потребляемые мощности, и отвечая на требования рынка, РСК уделяет самое пристальное внимание вопросам энергоэффективности, надёжности и простоты управления.

В рамках программно-определяемой платформы нового поколения компания представила на ISC 2020 свои новые разработки: вычислительные и гиперконвергентные узлы RSC Tornado, новые системы питания и программный комплекс RSC BasIS.

Компания экспериментировала с такой экзотикой, как процессоры Intel Xeon 9200, являющиеся, по сути, двумя Xeon 8200 под одной крышкой. Они были показаны на прошлой конференции SC19. Эта разработка Intel весьма специфична, так что современные вычислительные модули RSC Tornado Compute Node базируются на хорошо зарекомендовавших себя процессорах Xeon Scalable второго поколения с теплопакетами до 205 Ватт. Это либо серия Xeon Platinum 8200, либо Gold 6200; о более интересных Xeon Scalable третьего поколения (Cooper Lake) речи пока не идёт — они были представлены Intel совсем недавно.

Каждый модуль оснащается двумя процессорами, четырьмя планками Optane DCPMM общим объёмом до 2 Тбайт, двумя накопителями NVMe на базе Optane, а также двумя более медленными NVMe-накопителями Intel P4511 E1.S объёмом 4 Тбайт. «Малая» сетевая подсистема представлена двумя портами 10GbE, «большая» — портом Intel OmniPath 100 Гбит/с, InfiniBand EDR/HDR, либо портом 100GbE на усмотрение заказчика. Габариты модуля хорошо видны на слайде, где для сравнения размещён обычный карандаш.

В системе 100% жидкостного охлаждения как и прежде используется «горячий теплоноситель», это позволяет достичь высокой энергоэффективности — коэффициент PUE для новых модулей RSC Tornado не превышает 1,04. Вычислительная стойка с новыми модулями развивает до 0,7 Пфлопс, располагая 2,4 Пбайт пространства для хранения данных и скоростью их передачи в районе 2 Тбайт/с.

Гиперконвергентные модули RSC Tornado Hyper-Converged Node выполнены в том же стиле, но оптимизированы с учётом максимизации объёмов хранения данных. Благодаря использованию «линеечных» SSD каждый такой модуль может вмещать до 24 Тбайт в 12 NVMe-накопителях E1.S с «горячей заменой». Доступна поддержка Intel Memory Drive Technology (IMDT) с памятью ёмкостью до 4,2 Тбайт.

В качестве процессоров здесь также используются Xeon Scalable второго поколения. Сетевая часть даже более гибкая, нежели у вышеописанных вычислительных модулей: высокоскоростных интерфейсов Omni-Path, InfiniBand или Ethernet может быть два. RSC Tornado Hyper-Converged Node дают до 0,345 Пфлопс на стойку, но при этом объём хранимых данных достигает 3,6 Пбайт при скоростях передачи данных до 1,5 Тбайт/с.

В рамках единой системы охлаждаются гиперконвергентные модули так же, как и их чисто вычислительные собратья, и эффективность такого охлаждения столь же высока. Конструкция унифицированной вычислительной 42U-стойки с единой системой жидкостного охлаждения, занимающей всего 0,64 м2, позволяет установить любые узлы РСК количеством до 153 шт. Блоки питания выполнены в том же форм-факторе, что и остальные узлы.

Даже 3,6 Пбайт на стойку может оказаться мало, и на этот случай РСК представила новые модули хранения данных. В них устанавливается до 32 накопителей Intel E1.L в формате EDSFF, поэтому легко достигаются объёмы порядка 1 Пбайт на узел. В пересчёте на стойку это дает до 42 Пбайт, производительность таких «дисковых модулей» может достигать 0,8 Тбайт/с. Для ускорения работы используются модули Intel Optane DCPMM.

РСК активно продвигает использование жидкостного охлаждения. Наряду с «горячим теплоносителем» в новых модульных системах компания впервые предлагает готовые модули модернизации для стандартных серверов, что позволяет их перевести на использование жидких теплоносителей. Новые водоблоки полностью совместимы с существующими креплениями и легко заменяют воздушные радиаторы.

Каждый водоблок РСК может отвести до 400 Ватт тепла. Системы жидкостного охлаждения разработки РСК позволяют удалить за пределы сервера до 70% всего выделяемого тепла, что даёт возможность отключить системные вентиляторы и снизить за счёт этого энергопотребление. Надёжность гарантирует и тот факт, что теплоносители, применяемые РСК в этих системах, электрически инертны и в случае утечки не повредят оборудование.

Комплекс охлаждения РСК состоит из водоблоков, модуля распределения теплоносителя (крепится к стандартной стойке), насосного модуля. На входе стойка потребляет жидкость с температурой от 45 до 55 градусов Цельсия, на выход идёт среда с температурой 55 градусов. Теплообменник в насосном блоке передаёт тепло (50 градусов) на внешний контур кондиционирования. На вход же от внешнего контура приходит носитель с температурой в районе 23 ‒ 45 градусов.

По сравнению с традиционными воздушными комплексами охлаждения говорится о снижении стоимости эксплуатации на величину до 70%. За счёт уменьшения количества вентиляторов в серверах и кондиционерах обеспечивается дополнительная экономия электроэнергии, а пространство в ЦОД используется более эффективно: там, где раньше можно было рассеивать до 12 киловатт тепла, теперь рассеивается до 50 кВт. Кроме того, имеется возможность использования выделяемого тепла для других целей, например, для отопления соседних помещений.

О непревзойденной эффективности речи не идёт, но 50 кВт на стойку — это выше, нежели у аналогичных открытых решений (36 кВт на стойку) или решений, используемых Большой Семёркой облачных провайдеров. Погружные системы и системы прямого контакта могут давать от 150 до 400 кВт на стойку, но либо стоят существенно дороже и требуют специального оборудования, либо гораздо сложнее в эксплуатации и обслуживании при сравнимом показателе PUE.

С совместимостью у новых систем распределения теплоносителя РСК всё хорошо: они могут работать как с водоблоками собственной разработки, так и с решениями Asetek и CoolIT, а также с любыми стоечными серверами стандартной конфигурации.

В программной части группа РСК представила новый программно-определяемый комплекс BasIS. Он может работать как на платформах самой РСК, так и на любом стандартном аппаратном обеспечении. Большое внимание уделено как эффективности нового ПО, так и удобству и простоте управления. Система BasIS легко масштабируется по мере наращивания количества вычислительных узлов.

Пространство для хранения данных пользователя выделяется динамически, в режиме «storage on demand». Основой является широко распространённая в мире высокопроизводительных вычислений открытая распределённая файловая система Lustre, впервые представленная ещё в 2003 году. «Lustre on demand» используется, например, в суперкомпьютере РСК, установленном в Объединённом институте ядерных исследований в Дубне.

Можно сказать, что группа РСК очень хорошо понимает требования к HPC-системам сегодняшнего дня и предлагает современные, универсальные и качественно спроектированные решения, как в аппаратной, так и в программной части.

Постоянный URL: http://servernews.ru/1014165
23.06.2020 [19:23], Алексей Степин

128 ядер ARM: Ampere Computing анонсировала процессоры Altra Max

На первый взгляд, позиции архитектуры x86 в мире высокопроизводительных вычислений выглядят незыблемыми: примерно 94% всех систем класса HPC используют в качестве основы процессоры Intel и ещё 2,2% занимает AMD. Однако запуск кластера Fugaku доказал, что ARM — соперник весьма и весьма опасный.

Система на базе процессоров Fujitsu A64FX использует именно архитектуру ARM. И наступление ARM продолжается и на других фронтах: к примеру, AWS предлагает инстансы на собственных ARM-процессорах Graviton2. Не дремлет Ampere Computing, анонсировавшая сегодня новые процессоры Altra и Altra Max.

Разработкой мощных многоядерных процессоров с архитектурой ARM компания занимается довольно давно: в конце прошлого года она уже рассказывала о втором поколении своих продуктов, чипах QuickSilver. В их основу лег дизайн ядра ARM Neoverse N1 (ARM v8.2+), количество самих ядер достигло 80, появилась поддержка интерфейса PCI Express 4.0, чего, например, до сих пор нет в процессорах Intel Xeon Scalable.

Серверные процессоры с архитектурой ARM доказали своё превосходство в энергоэффективности перед x86, что сделало их отличным выбором для облачных сервисов — в таких ЦОД плотность упаковки вычислительных мощностей максимальна и такие параметры, как удельная производительность, энергопотребление и тепловыделение играют крайне важную роль. Новые процессоры Ampere под кодовым именем Altra нацелены именно на этот сектор рынка.

В основе Altra также лежит ядро Neoverse N1 — оно же применено и в проекте Amazon Graviton2 — но Ampere Computing намеревается охватить с помощью Altra остальных крупных провайдеров облачных услуг, которые также заинтересованы в высокоплотных энергоэффективных ЦП. При этом утверждается, что Altra превосходит Graviton2; по крайней мере, на бумаге это выглядит убедительно.

Всего в серии Altra анонсировано 12 процессоров, с количеством ядер от 32 до 80, частотами от 1,7 до 3,3 ГГц и теплопакетами от 45 до 250 Ватт. Все они располагают восьмиканальным контроллером памяти DDR4-3200 (до 4 Тбайт на процессор) и предоставляют в распоряжение системы 128 линий PCI Express 4.0, чем пока могут похвастаться разве что AMD Rome. Применена очень простая система наименований: например, «Q72-30» означает, что перед нами 72 ядерный процессор поколения QuickSilver с частотой 3 ГГц.

Altra следует большинству современных тенденций в процессоростроении: процессоры располагают солидным массивом кешей (1 Мбайт на ядро, 32 Мбайт L3), ядра имеют два 128-битных блока инструкций SIMD, а также поддерживают популярные в задачах машинного интеллекта и инференс-комплексах форматы вычислений INT8 и FP16. Что касается удельной энергоэффективности, то ядро AMD Rome потребляет около 3 Ватт при полной нагрузке на частоте 3 ГГц, а для Altra Q80-30 этот показатель равен 2,6 Ватта; турборежима у Altra, впрочем, нет и максимальные частоты справедливы для всех ядер.

В настоящий момент компания поставляет образцы платформ Altra двух типов: однопроцессорную Mt. Snow и двухпроцессорную Mt. Jade. В число партнёров компании входят такие производители, как GIGABYTE и Wiwynn, заявлен также ряд контрактов с производителями более низких эшелонов. В основе Mt. Jade, вероятнее всего, лежит системная плата GIGABYTE MP32-AR0, о ней мы уже рассказывали нашим читателям.

Цены новых решений пока не разглашаются, однако, заинтересованные в процессорах Ampere провайдеры уже в течение двух месяцев тестируют новые платформы; в их число входят такие компании, как Packet и CloudFlare, причём Packet уже предоставляет своим клиентам «ранний доступ» к услугам, запускаемым на новых платформах Ampere. Более массовых поставок следует ожидать в августе и сентябре текущего года.

80 ядер — весьма солидное количество, даже в арсенале AMD таких процессоров ещё нет, семейство EPYC всё ещё ограничено 64 ядрами, но с SMT. Однако на достигнутом Ampere не останавливается и позднее в этом году планирует представить миру настоящего монстра — 128-ядерный процессор Altra Max, на базе всё той же архитектуры QuickSilver/Neoverse.

Этот чип имеет кодовое имя Mystique, он будет базироваться на новом дизайне кристалла, однако отличия здесь количественные, качественно это всё та же Altra, но с большим количеством ядер, оптимизированная с учётом возможностей сохранённой неизменной подсистемой памяти. Сохранится даже совместимость по процессорному разъёму. Образцы Altra Max если и существуют, то только в лаборатории Ampere Computing, а публичного появления сэмплов этих процессоров следует ожидать не ранее 4 квартала с началом производства в 2021 году.

Таким образом, можно утверждать, что технологическая ступень 7 нм компанией освоена. Она штурмует новую высоту — образцы процессоров Siryn, построенные с использованием 5-нм техпроцесса TSMC должны появиться ближе к концу следующего года. Некоторые блоки Siryn уже существуют в кремнии. Эти процессоры получат и новую платформу, а, возможно, и поддержку таких технологий, как PCI Express 5.0 и DDR5.

Постоянный URL: http://servernews.ru/1014076
23.06.2020 [15:15], Игорь Осколков

Летний рейтинг суперкомпьютеров TOP500: экзафлопс напополам

Появлению первого ARM-суперкомпьютера Fugaku на первом месте TOP500 мы уже порадовались. Но если взглянуть на оставшуюся часть списка, поводов для радости уже не так много. Шутка ли, в этом году в число новых машин в списке оказалось наименьшим с момента основания рейтинга.

Существенный прирост суммарной мощности всего списка с 1,65 до 2,23 Эфлопс обеспечила опять же машина Fugaku, внеся тем самым лёгкую сумятицу — отрыв между первым и вторым местом очень существенен. Однако тут есть два важных момента. Во-первых, A64FX концептуально ближе к Xeon Phi — собственная память, стандартные ядра + «широкие» инструкции сбоку — и стоит ли его причислять к CPU или всё же к ускорителям, ещё надо подумать. Во-вторых, энергоэффективность у этой 28-МВт машины оказалась практически идентичной показателю Summit (POWER9 + Volta).

Лидером Green500 вообще оказался специфический суперкомпьютер Preferred Networks MN-3 c ускорителями PFN MN-Core. Как и PEZY, это ещё одно японское чудо, которое вряд ли станет массовым. Остальные же места в «зелёном» списке, как и прежде, по большей части принадлежат машинам на базе процессоров Intel или POWER вкупе с ускорителями NVIDIA. Собственный суперкомпьютер NVIDIA Selene на базе DGX A100 (с AMD EPYC 7002 внутри) занимает в Green500 и TOP500 второе и седьмое место соответственно.

При этом, в целом, соотношение между производителями компонентов практически не поменялось. 470 систем используют процессоры Intel, ещё 11, включая Hygon, используют AMD. Причём Rome полгода назад было всего пару штук, а теперь уже восемь. Всего 4 машины базируются на ARM: Fugaku и её прототип, Flow на базе Fujitsu PRIMEHPC FX1000 с теми же процессорами A64FX и Astra на базе Marvell ThunderX2. Есть под одному SPARC и ShenWei, остальные — IBM POWER. Ускорители установлены почти в трети систем, в подавляющем большинстве случаев это NVIDIA разных поколений.

Теперь NVIDIA имеет право зачесть в свои активы заслуги Mellanox. Формально среди интерконнектов лидирует Ethernet, используемый более чем в половине систем. За ним идёт InfiniBand — почти треть машин. Остальное приходится на проприетарные решения. Однако суммарная производительность суперкомпьютеров с Ethernet почти на треть меньше, чем этот же показатель у машин с IB или проприетарными интерконнектами. Массово Ethernet начинает встречаться у систем после первой сотни позиций TOP500.

Примерно такая же картина наблюдается со странами и производителями. Формально по числу суперкомпьютеров лидирует, конечно, Китай (226 шт.) и большая тройка Lenovo, Sugon, Inspur. В США машин 114, в Японии 30, а в России и вовсе 2 (36-е место у SberCloud Christofari и 131-е у Ломоносов-2 в МГУ). Однако по суммарной мощности лидирует США, а Япония, благодаря всё тому же Fugaku, идёт вровень с Китаем.

Из необычного — в первой десятке свежего рейтинга на шестом месте находится промышленный суперкомпьютер HPC5 итальянской корпорации Eni, который является самым быстрым в Европе вообще. Не то, чтобы у нефтегазовых компаний не хватало возможностей получить такую машину, просто далеко не всегда они готовы делиться информацией.

Составители TOP500 отдельно отметили, что рынки коммерческих и академических суперкомпьютеров отличаются кардинально, и впервые проанализировали первую сотню машин в каждой категории. Собственно говоря, коммерческих машинах как раз уже давно довольно много, но топовые позиции традиционно удерживаются по большей части не ими.

По суммарным числу и производительности коммерческих установок в лидерах опять Китай и китайские же компании. А вот для академических систем картина совершенно иная. По числу машин в лидерах уже США и Япония, по производительности опять же Япония (снова всплеск из-за Fugaku) и США, а среди вендоров верхние строчки занимают привычные имена: Cray + HPE, Atos, IBM, Fujitsu. Среди производителей чипов в количественном выражении лидируют Intel и связка Intel+NVIDIA в обоих сегментах. В плане производительности для коммерческих суперкомпьютеров картинка такая же, а вот в исследовательских машинах доминирует пара POWER+NVIDIA и теперь уже ARM.

В целом же, скорость прироста общей производительности за последние десятилетия осталась практически неизменной. Малое число новых систем в рейтинге успешно скомпенсировал Fugaku, а в скором будущем нас ожидают как минимум три сверхмощные машины экзафлопсного класса Aurora, El Capitane и Frontier. Fugaku же хоть и не дотянул до этой заветной цифры в FP64-вычислениях, но на уровне организации системы его уже можно причислить к суперкомпьютерам нового поколения.

Постоянный URL: http://servernews.ru/1014052
22.06.2020 [18:20], Игорь Осколков

ARM-суперкомпьютер Fugaku поднялся на вершину рейтингов TOP500, HPCG и HPL-AI

Конечно же, речь идёт о японском суперкомпьютере Fugaku на базе ARM-процессоров A64FX, который досрочно начал трудиться весной этого года. Эта машина стала самым мощным суперкомпьютером в мире сразу в трёх рейтингах: классическом TOP500, современном HPCG и специализированном HPL-AI.

Суперкомпьютер состоит из 158976 узлов, которые имеют почти 7,3 млн процессорных ядер, обеспечивающих реальную производительность на уровне 415,5 Пфлопс, то есть Fugaku почти в два с половиной раза быстрее лидера предыдущего рейтинга, машины Summit. Правда, оказалось, что с точки зрения энергоэффективности новая ARM-система мало чем отличается от связки обычного процессора и GPU, которой пользуется большая часть суперкомпьютеров. Так что на первое место в Green500 она не попала.

Однако на стороне Fugaku универсальность — понижение точности вычислений вдвое приводит к удвоение производительности. Так что машина имеет впечатляющую теоретическую пиковую скорость вычислений 4,3 Эопс на INT8 и не менее впечатляющие 537 Пфлопс на FP64. Это помогло занять её первое место в бенчмарке HPL-AI, которые использует вычисления разной точности. А общая архитектура процессора, включающего набортную память HBM2, и системы, использующей интерконнект Tofu, способствовали лидерству в бенчмарке HPCG, который оценивает эффективность машины в целом.

Постоянный URL: http://servernews.ru/1013963
22.06.2020 [17:06], Алексей Степин

ISC 2020: платформа NVIDIA UFM Cyber-AI минимизирует простои в ЦОД

Сегодня началась конференция ISC High Performance 2020. К сожалению, в этом году мероприятие приходится проводить в онлайн-формате — победа над COVID-19 ещё не одержана. Но уже анонсирован ряд любопытных решений. Одно из них — новая платформа UFM Cyber-AI, разработанная NVIDIA при участии её нового подразделения Mellanox.

Эта платформа ставит своей целью минимизировать возможные простои в центрах обработки данных из-за проблем с аппаратной частью, сетями, либо информационной безопасностью.

Любой современный ЦОД, суперкомпьютер или кластер представляют собой совокупность большого количества стандартных «строительных блоков», обычно в классическом стоечном формате. Все эти «кубики», включающие в себя вычислительные узлы, системы хранения данных, сетевые коммутаторы, а также подсистемы питания и охлаждения, соединены между собой и работают как единое целое.

Эксплуатация такой системы стоит приличных денег и в интересах её владельца обеспечить максимальное время полезной работы при минимальном времени простоя из-за отказов тех или иных компонентов. По данным ITIC, стоимость часа простоя легко может обойтись более чем в $300 тысяч. Но при таком количестве компонентов не всегда помогает даже дублирование и горячая замена комплектующих. С этим-то и предлагает бороться NVIDIA с помощью современных технологий машинного интеллекта.

Поведение систем, входящих в комплекс ЦОД, подчиняется определённым закономерностям и при должном уровне накопления данных солидную часть потенциальных проблем можно предсказать, а значит, и предотвратить — например, путём опережающей замены того или иного блока. Именно такого рода предсказаниям и должна заниматься система UFM Cyber-AI, созданная на основе разработок Mellanox.

Сама технология не нова, принципы, заложенные в ней, применялись Mellanox в сетевых решениях на базе InfiniBand, очень популярного в мире суперкомпьютеров интерконнекта. Платформа UFM Cyber-AI является расширением UFM Enterprise. За сбор информации отвечает третий компонент, UFM Telemetry. Вместе они отслеживают все имеющие значение параметры, от температур и изменений конфигурации в системе до поведения сетевой части — уровня трафика, загруженности и т.п. Выявляются закономерности, отмечаются моменты проседания производительности и прочие отклонения.

Процесс работы и панели мониторинга и управления комплекса NVIDIA UFM

На основе профиля поведения ЦОД UFM Cyber-AI может предсказывать грядущие проблемы, а значит, их можно избежать и исправить ситуацию, не останавливая работу систем. От этого выигрывают все: владельцы избегают потерь при простое, снижается стоимость эксплуатации, пользователи не страдают от того, что их задачи внезапно перестают выполняться.

UFM — это программно-аппаратный комплекс, аналитика Cyber-AI выполняется на отдельных серверах. Платформа UFM поддерживает интеграцию с уже имеющимися в ЦОД средствами мониторинга и управления, включая Slurm и Platform LFM, также имеется интеграция с OpenStack, Azure Cloud и VMWare. Более подробные описания есть на сайте NVIDIA.

Постоянный URL: http://servernews.ru/1013952
22.06.2020 [16:01], Юрий Поздеев

Представлены серверы с поддержкой нового GPU NVIDIA A100 PCIe

NVIDIA представила A100 в форм-факторе AIC с PCIe, в дополнение к SXM4-версии, которая была представлена в прошлом месяце. Ведущие мировые производители серверов объявили о начале выпуска систем на базе новой NVIDIA A100 в различных конфигурациях для решения самых сложных задач в области ИИ, научных исследований и математических расчетов.

Более 50 производителей серверов на базе NVIDIA A100, включая ASUS, Atos, Cisco, Dell Technologies, Fujitsu, GIGABYTE, HPE, Lenovo и другие выпустят системы на базе A100 уже этим летом, но из-за высокого спроса на графические ускорители, некоторые производители отложат выпуск систем на конец года.

В болшинстве случаев анонс касается поддержки со стороны уже имеющихся популярных платформ, как на базе Intel Xeon, так и на базе AMD EPYC. Впрочем, есть и некоторые любопытные решения. Например, GIGABYTE анонсировала сервер G492, построенный на базе двухпроцессорной конфигурации AMD EPYC с поддержкой PCIe 4.0.

Данный сервер может разместить в себе до 10 NVIDIA A100, при этом для связи GPU между серверами используется GPUDurect RDMA. В остальном это обычный сервер для HPC (если слово «обычный» тут уместно), поддерживающий до 8 Тбайт оперативной памяти, 12 накопителей форм-фактора 3,5" (из них 8 NVMe), три блока питания по 2200 Вт каждый.

Если нужна машина поменьше, то ASUS недавно анонсировала ECS4000A E10 — компактный сервер в форм-факторе 2U, который построен на базе однопроцессорной платформы AMD EPYC 7002. Сервер имеет 11 разъемов PCIe 4.0, однако полноразмерных ускорителей NVIDIA A100 в корпусе можно разместить только четыре. На лицевой панели расположены 8 отсеков под диски 3,5", половину из которых можно использовать под NVMe. 

Не забывают в NVIDIA и про оптимизацию ПО: обновление получили CUDA 11 и более 50 библиотек CUDA-X, NVIDIA Jarvis, NVIDIA Merlin, Rapids и NVIDIA HPC SDK. Использование нового ПО позволит клиентам создавать и ускорять приложения в HPC, науке, медицине, 5G и других отраслях.

Постоянный URL: http://servernews.ru/1013925
Система Orphus