Материалы по тегу: hpc

01.08.2021 [23:45], Владимир Агапов

Австралийский университет RMIT получит облачный суперкомпьютер на базе AWS

Благодаря расширению присутствия гиперскейлеров в различных регионах мира всё больше пользователей могут быстро получать облачные ресурсы по требованию, вплоть до кластера для высокопроизводительных вычислений (HPC). Наиболее развитые сервисы предлагают лидеры рынка, такие как Amazon, Google и Microsoft. Широкомасштабная обкатка технологий компонуемых суперкомпьютеров на их площадках началась пару лет назад, а в этому году такой облачный кластер уже занял 41 место в рейтинге TOP500.

Новой вехой в наступлении эры облачных суперкомпьютеров стал проект Королевского института Мельбурна (RIMT) по развёртыванию специализированной системы на платформе AWS для расширения своих образовательных и исследовательских возможностей. Вычислительные ресурсы будут выделены исследователям и студентам отраслевых центров института по следующим направлениям: Индустрии 4.0, космос, финтех, цифровое здравоохранение и креативные технологии.

rmit.edu.au

rmit.edu.au

RMIT будет использовать AWS Direct Connect для высокоскоростных выделенных сетевых подключений напрямую к дата-центру Amazon, чтобы исследователи, студенты, сотрудники и промышленные партнеры получили эффективные возможности анализа больших массивов данных, необходимых в их экспериментах. Это позволит RIMT сократить время необходимое на прохождение всех этапов разработки новых продуктов — от концепции до готовых рыночных решений.

Также RIMT намерен привлечь провайдера AARNet, который предоставит «широкие» интернет-каналы, и компанию Intel, в портфеле которой имеются передовые решения для обработки, оптимизации, хранения и перемещения больших и сложных массивов данных. Похожий проект есть у метеослужбы Великобритании, которая получит гибридный суперкпомпьютер, часть которого будет работать в облаке Microsoft Azure.

itpro.co.uk

itpro.co.uk

По словам вице-президента по цифровым инновациям RMIT, профессора Александра Субика (Aleksandar Subic), HPC-решения на базе AWS дадут «практически неограниченную» вычислительную мощность, которая отвечает требованиям к инфраструктуре большинства приложений. Проект RMIT, создаваемый при поддержке Инвестиционного фонда высшего образования правительства штата Виктория, станет первым в Австралии облачным суперкомпьютерным комплексом и передовым примером инноваций в академическом секторе.

Центр цифровых инноваций и школа компьютерных технологий были открыты RMIT в прошлом году для поддержки исследований мирового уровня и осуществления образовательных программ в области науки, технологий, инженерии и математики и технологий. Центр будет поддерживать разработку и эксплуатацию облачного суперкомпьютера, а его управлением займутся сами исследователи и студенты. В числе первых задач для него значатся секвенирование генома и моделирование атмосферных процессов.

Постоянный URL: http://servernews.ru/1045702
28.07.2021 [12:18], Владимир Мироненко

Atos расширит своё присутствие на глобальном рынке HPC благодаря покупке Nimbix

Французская корпорация Atos объявила о приобретении американского поставщика облачных платформ для высокопроизводительных вычислений (HPC) Nimbix. Эта сделка позволит Atos, лидирующей в Европе в области HPC, существенно расширить свои возможности и укрепить позиции на глобальном рынке. Nimbix сможет использовать глобальное присутствие Atos для предоставления инновационных возможностей предприятиям, переходящим в гибридное облако в рамках своих стратегий для HPC и ИИ.

Nimbix, основанная в 2010 году, предлагает облачные и локальные HPC-услуги, предоставляя инженерам и учёным доступ к инфраструктуре и программному обеспечению, необходимым для создания, вычислений, анализа, масштабирования и развёртывания приложений моделирования, ИИ, машинного обучения и глубокого обучения. Послужной список Nimbix включает тысячи реализованных облачных HPC-проектов в 68 странах.

Atos и Nimbix будут предлагать комплексное решение для оркестрации рабочих нагрузок как для локальных, так и для облачных клиентов. Совместное решение обеспечивает более высокий уровень самообслуживания и автоматизации, расширяя возможности Atos за счёт многооблачной пакетной передачи и гибридных возможностей. Это позволит Atos расширить своё рыночное предложение и укрепить позиции в облачных HPC-решениях в рамках Atos OneCloud.

Уникальные наработки Nimbix позволят ускорить разработку Atos HPCaaS и выхода на облачный рынок, а также увеличить присутствие Atos в области HPC в Северной Америке. Благодаря упрощению доступа к услугам HPC без значительных вложений, это также поможет расширить HPC-предложения Atos на ключевых рынках, таких как производство, финансовые сервисы и страхование, здравоохранение и медико-биологическая отрасль, в дополнение к государственному сектору и обороне.

Постоянный URL: http://servernews.ru/1045367
27.07.2021 [01:29], Андрей Галадей

NVIDIA и Королевский колледж Лондона ускорили исследования мозга с помощью суперкомпьютера Cambrdige-1

Компания NVIDIA и Королевский колледж Лондона обнародовали новые подробности об одном из первых проектов, запущенном на суперкомпьютере Cambridge-1, самой мощной системой такого класса в Великобритании. Система состоит из 80 модулей DGX A100 (80 Гбайт), объединённых интерконнектом InfiniBand HDR на базе DPU Bluefield-2. Постройка суперкомпьютера обошлась NVIDIA в $100 млн. В рейтинге TOP500 он занимает сейчас 41 место.

Сейчас суперкомпьютер используется для создания ИИ-моделей, способных генерировать синтетические изображения мозга на основе изображений, полученных с помощью МРТ. Это даёт возможность научить ИИ отличать здоровый мозг от больного, поскольку его тренируют на снимках пациентов разного возраста и с различными недугами. Как ожидается, в перспективе это позволит диагностировать возможные неврологические отклонения или заболевания мозга на ранней стадии.

Также новая методика с использованием ИИ может стать новаторским решением в понимании того, как формируется мозг, как травмы и болезни влияют на него, и как помочь ему восстановиться. Как отмечается, суперкомпьютер ускорил работы, сократив время обучение ИИ-моделей с месяцев до недель, а также дал возможность создавать более чёткие изображения.

В качестве программной составляющей используется свободный фреймворк MONAI на основе PyTorch, библиотека NVIDIA CUDA Deep Neural Network (cuDNN) для ускорения глубокого обучения нейросетей, а также NVIDIA Omniverse — открытая платформа для виртуального моделирования и визуализации в реальном времени.

Постоянный URL: http://servernews.ru/1045221
26.07.2021 [16:04], Сергей Карасёв

Иран начал работу над суперкомпьютером следующего поколения производительностью до 100 Пфлопс

Иранский исследовательский институт информационных и коммуникационных технологий (ICT Research Institute) выпустил предварительные рекомендации по созданию комплекса высокопроизводительных вычислений следующего поколения. Новый суперкомпьютер должен превзойти по производительности систему Simurgh. Отмечается, что в настоящее время работы над Maryam находятся на начальной стадии. Организаторы проекта пока принимают предложения по созданию системы и определяются с исполнителем работ.

Комплекс Simurgh, напомним, был введён в эксплуатацию в мае нынешнего года. Его быстродействие составляет 0,56 Пфлопс. В дальнейшем мощность суперкомпьютера планируется довести до 1 Пфлопс. Проект нового суперкомпьютера получил название Maryam — в честь Мариамы Мирзахани (Maryam Mirzakhani), иранского и американского математика, специализировавшейся в геометрии Лобачевского, пространствах Тейхмюллера, эргодической теории и симплектической геометрии.

Суперкомпьютер Simurgh. Фото: Maryam Kamyab / MEHR

Суперкомпьютер Simurgh. Фото: Maryam Kamyab / MEHR

Ранее говорилось, что последователь Simurgh будет обладать в 100 раз более высоким быстродействием по сравнению с данной системой. А это означает, что производительность может варьироваться от 56 до 100 Пфлопс. При этом совершенно не ясно, каким образом Иран сможет получить необходимое оборудование. Страна, годами находящаяся под санкциями, иногда получает «серые» поставки, но для достижения производительности 50-100 Пфлопс даже в течение нескольких лет потребуется не только современное «железо», но и сопутствующая инфраструктура.

Для сравнения — в июньском рейтинге TOP500 система Sierra, занимающая третье место, при мощности 94,64 Пфлопс потребляет 7,44 МВт. И это сложный инженерный комплекс. Если же брать нижнюю планку производительности будущего суперкомпьютера, то ближайшей похожей системой в рейтинге является бустер JUWELS (8 место), который использует современные решения AMD и NVIDIA: 44,12 Пфлопс и 1,76 МВт.

Постоянный URL: http://servernews.ru/1045185
23.07.2021 [14:00], Владимир Мироненко

Tachyum утроила капитализацию и готовится к выпуску 128-ядерных процессоров Prodigy

Словацкая компания Tachyum, разработчик универсальных процессоров для ЦОД, призванных стать конкурентами чипам Intel, объявила о завершении раунда финансирования серии B, который возглавил частный инвестор IPM Group в сотрудничестве с Across Private Investments. В результате раунда рыночная стоимость Tachyum долларах США выросла в три раза. Правда, точные суммы компания не указала.

Собранные средства будут использованы для завершения проекта по созданию 128-ядерных процессоров Prodigy, поскольку компания переходит от успешной демонстрации прототипа на основе FPGA к финальной стадии разработки Tape-out, а затем к производству чипов. В дальнейшем Tachyum планирует провести раунд финансирования серии C, который позволит получить капитал, необходимый для достижения прибыльности.

Сообщается, что чип Prodigy предложит высочайшую скорость вычислений и широкие возможности энергосбережения для гиперскейлеров, телеком-индустрии, частных и публичных облаков. Снижение энергопотребления процессорных ядер Prodigy по сравнению с текущим поколением Intel Xeon в 10 раз резко сократит выбросы углерода дата-центрами, при этом Prodigy втрое дешевле по сравнению с теми же чипами (при аналогичной производительности).

Tachyum также является одним из основателей компании I4DI (Innovations for Digital Infrastructure), которая построит в Словакии самый быстрый в мире ИИ-суперкомпьютер на базе Prodigy.

Постоянный URL: http://servernews.ru/1045011
20.07.2021 [23:38], Владимир Агапов

EuroHPC запустил проект ADMIRE по разработке адаптивных СХД для экзафлопсных вычислений

Растущая потребность в обработке чрезвычайно больших наборов данных является одним из основных стимулов создания систем высокопроизводительных вычислений (HPC) экзафлопсного уровня. Плоские иерархии хранилищ, встречающиеся в классических архитектурах HPC, уже недостаточно производительны. Многоуровневые иерархии могут устранить узкие места, но для максимального повышения производительности требуется тщательный контроль, чтобы избежать перегрузок и сбалансировать производительность вычислений и ввода-вывода (IO).

Соответствующие универсальные интерфейсы и методы для управления таким расширенным стеком ввода-вывод пока что отсутствуют. Проект ADMIRE запущен ЕС как раз с целью создания такого активного стека, который будет динамически реагировать на требования к вычислениям и хранению благодаря интеллектуальной глобальной координации, гибкости вычислений и ввода-вывода, а также планирования ресурсов хранения на всех уровнях иерархии хранения.

hpcwire.com

hpcwire.com

В проект, запущенный 1 апреля 2021 г, вовлечены 14 институтов из 6 европейских стран. Координацию осуществляет Университет Карлоса III в Мадриде (UC3M), а финансирование — консорциум EuroHPC JU и сами страны, участвующие в проекте. Сформированный бюджет проекта составляет €7,9 млн.

Главная роль в ADMIRE отводится четырём институтам Германии. Они будут работать над различными компонентами системы в течении ближайших трёх лет. Разработчикам необходимо будет создать программно определяемую структуру, основанную на принципах масштабируемого мониторинга и управления, разделенния уровней управления и передачи данных, а также оркестрации ключевых компонентов системы и приложений через встроенные точки управления.

semanticscholar.org

semanticscholar.org

Исследователи из Университет Иоганна Гутенберга в Майнце (JGU) займутся разработкой специальных (ad-hoc) систем хранения данных (СХД), которые будут динамически реагировать на решения, принимаемые ADMIRE. С помощью ad-hoc СХД можно будет снизить нагрузку на основную параллельную файловую систему, обеспечив при этом значительно более высокую пропускную способность для данных и метаданных. В основу работы будет заложена разработанная ранее файловая система GekkoFS с дополнениями для проекта ADMIRE, позволяющими удовлетворить семантические требования, требованиям к целостности и шаблонам доступа и т.д.

Технический университет Дармштадта (TU Darmstadt) разработает алгоритмы и инструменты для настройки ресурсов, используемых ПО во время выполнения таким образом, чтобы оптимизировать как время выполнения отдельных программ, так и вычислительную мощность системы в целом. Для этого он доработает свой инструмент моделирования производительности Extra-P, чтобы добавить возможность IO-моделирования для системы ADMIRE.

clustercomp.org

clustercomp.org

Суперкомпьютерный центр Юлиха (JSC) оптимизирует производительность ввода-вывода конвейеров обработки, которые ускорят доступ к данным и их анализ на всех этапах — от загрузки до получения конечных результатов. Это нужно для того, чтобы система могла обрабатывать огромные информации из различных источников в реальных сценариях работы.

Центр вычислений и данных Макса Планка (MPCDF) привнесёт в проект методы обработки данных на различных этапах (in-transit/in-situ), с помощью которых они могут, например, сжиматься и анализироваться по ходу текущего моделирования. Благодаря этому задачи, которые обычно выполняются только после завершения моделирования и сохранения данных в файл, смогут быть решены, всё ещё находясь в основной памяти, что значительно сокращает объём данных, которые в конечном итоге сохраняются.

researchgate.net

researchgate.net

Участники ожидают, что эти инструменты позволят существенно увеличить производительность как отдельных приложений HPC, так и пропускную способность системы в целом. Благодаря использованию преимуществ быстрых и энергоэффективных накопителей на уровне узлов, Европейских ad-hoc СХД и методов обработки данных in-transit/in-situ. Кроме того, расширенный стек ввода-вывода будет обеспечивать качество обслуживания (QoS) и отказоустойчивость.

Постоянный URL: http://servernews.ru/1044735
20.07.2021 [16:01], Сергей Карасёв

Julia Computing получила финансирование в размере $24 млн

Компания Julia Computing сообщила о том, что в ходе раунда финансирования Series A удалось привлечь $24 млн на развитие. Ведущим инвестором стал фонд Dorilton Ventures. В программе приняли участие Menlo Ventures, General Catalyst и HighSage Ventures. Кроме того, в состав совета директоров вошёл Боб Маглия (Bob Muglia), бывший генеральный директор Snowflake и президент подразделения Microsoft Servers and Tools.

Julia Computing была основана создателями высокоуровневого высокопроизводительного языка программирования Julia. Он предназначен прежде всего для математических вычислений, но может применяться и при разработке программного обеспечения общего назначения. Язык быстро набирает популярность в научных, академических и инженерных кругах.

Привлечённые средства будут использованы для расширения экосистемы Julia и дальнейшего развития облачной HPC-платформы JuliaHub. Последняя помогает в разработке, размещении и масштабировании программ и моделей на базе языка Julia. Кроме того, на основе JuliaHub функционирует ряд решений: система JuliaSim для сложного физического моделирования, JuliaSPICE для моделирования электрических цепей и пр.

Постоянный URL: http://servernews.ru/1044697
19.07.2021 [13:15], Алексей Степин

Суперкомпьютер Frontier станет самой энергоэффективной системой экзафлопсного класса

Новый суперкомпьютер вычислительного центра Окриджской лаборатории Frontier должен вступить в строй к концу этого года и стать первой системой экза-класса в США. Хотя такая вычислительная производительность и означает многие мегаватты энергопотребления, OLCF рассказала, что благодаря новым технологиям будущий суперкомпьютер превзойдет раннюю оценку в 20 МВт на Эфлопс.

Физические законы невозможно обмануть и любая вычислительная система, кроме гипотетического обратимого процессора, неизбежно потребляет энергию и выделяет тепло. Но удельную энергоэффективность повышать можно и нужно. Ещё в 2008 году исследовательское агентство DARPA опубликовало любопытное исследование на эту тему.

Четыре проблемы: потребление, надёжность, параллелизм и перемещение данных

Четыре проблемы: потребление, надёжность, параллелизм и перемещение данных

На тот момент создание системы экза-класса уже было возможным на базе существующих технологий, но потреблять такая система стала бы гигаватт энергии; для сравнения, Новгородской области в том же 2008 году требовалось 3,55 ГВт. С учётом развития полупроводниковых технологий исследователи надеялись уложить Эфлопс в 155 МВт, а при самом агрессивном подходе даже 70 МВт.

Перемещение данных: главный пожиратель времени и энергии

Перемещение данных: главный пожиратель времени и энергии

Но и это было слишком большой цифрой, получить под которую финансирование было бы невозможно. Одно только энергопотребление такой системы обошлось бы в более чем $100 миллионов в течение пяти лет. В качестве реалистичной оценки, делающей экзафлопсные суперкомпьютеры реальными, была взята планка 20 МВт.

Также был озвучен и ряд других проблем, стоящих на пути к системам такого масштаба Одним из «бутылочных горлышек» стал бы интерконнект — в 2008 году ещё не было возможности «накормить» систему с такой степенью параллелизма без простоев вычислительных узлов. Время перемещения одного байта информации в подобной системе оказалось на порядки больше времени, затрачиваемого на сами вычисления.

Эволюция систем ORNL: от Titan к Frontier

Эволюция систем ORNL: от Titan к Frontier

С тех пор по меркам ИТ минула эпоха: утончались техпроцессы, стали популярными вычисления на GPU. Если суперкомпьютер Titan 2012 года имел соотношение ЦП к ГП 1:1, то уже в 2017 году с введением в строй его наследника Summit эта цифра выросла до 1:3, а в будущем Frontier она должна составить уже 1:4. На каждый процессор AMD EPYC придётся 4 ускорителя Radeon Instinct.

Само развитие микроэлектроники сделало возможным создание экзафлопсной системы, укладывающуюся в названную более 10 лет назад цифру 20 МВт. Сегодня никаких экзотических технологий и подходов к программированию для реализации проекта подобного масштаба не требуется. Увеличилась и плотность вычислений, и плотность хранения данных, и производительность сетевых подсистем — с 6,4 (Titan) до 100 Гбайт/с (Frontier) в последнем случае.

Развитие технологий позволит превзойти сделанные в 2008 году предсказания

Развитие технологий позволит превзойти сделанные в 2008 году предсказания

На данный момент потребление Frontier оценивается в 29 МВт, что несколько больше заявленной ранее цифры, но, напомним, 20 МВт было оценкой для 1 Эфлопс вычислительной мощности, Frontier же должен развивать более 1,5 Эфлопс, так что соотношение окажется даже лучше ранее предсказанного. Проблема с хранением и перемещением данных в новом суперкомпьютере будет решена за счёт широкого использования памяти типа HBM.

Эта оценка базируется на эффективности вычислений, составляющей 80% — 41,4 Гфлопс/Вт в режиме FP64, что выше наиболее энергоэффективных систем, для которых этот показатель составляет около 30 Гфлопс/Вт. Для сравнения можно взять сегодняшннего лидера TOP500, Arm-суперкомпьютер Fugaku. Его производительность составляет 442 Пфлопс, но потребляет он почти 30 МВт. В рейтинге Green500 он занимает 20 место. Полностью презентацию, посвященную истории экзафлопсных систем, можно посмотреть здесь.

Постоянный URL: http://servernews.ru/1044562
16.07.2021 [22:57], Владимир Агапов

AMD передала Франции HPC-кластер Neowise для исследования COVID-19

На протяжении всей пандемии коронавируса AMD оказывает поддержку сообществу исследователей. Она учредила в апреле прошлого года Фонд высокопроизводительных вычислений для изучения COVID-19 (COVID-19 HPC Fund), объём инвестиций через который уже достиг $20 млн., а суммарная вычислительная мощность составила 12 Пфлопс. В апреле 2021 г. фондом было поставлено HPC-оборудование в Штутгартский Центр высокопроизводительных вычислений, а теперь значительные вычислительные ресурсы получили французские организации GENCI и Inria.

В их распоряжение поступил кластер Neowise, состоящий из десяти узлов, каждый из которых оснащен одним 48-ядерным процессором AMD Epyc 7642, восемью ускорителями Radeon Instinct MI50 и 512 Гбайт оперативной памяти. Узлы объединены интерконнектом InfiniBand HDR (200 Гбит/c). Neowise, созданный Penguin Computing в сотрудничестве с AMD пока что находится в стадии тестирования, но исследователи уже имеют к нему доступ для выполнения задач на платформе Grid'5000.

GENCI, координирующая французские HPC-ресурсы, и Национальный исследовательский институт цифровых наук и технологий (Inria) были выбраны для получения пожертвования из фонда AMD в 2020 г. По словам организаций, вычислительные ресурсы Neowise будут нужны им для целого ряда проектов — начиная от оптимизации инструментов анализа данных для визуализации лёгких и заканчивая моделированием передачи вирусов в местных популяциях.

«Исследования COVID-19 должны продолжаться, чтобы вернуться к нормальной жизни», — говорится в совместном заявлении Гербо Филиппа Лавока (Gerbeau Philippe Lavocat), генерального директора GENCI, и Марио Сильвейра (Mario Silveira) генерального менеджера AMD — «Работа, проводимая с использованием серверов на базе AMD, является олицетворением этого стремления».

Постоянный URL: http://servernews.ru/1044473
16.07.2021 [17:31], Алексей Степин

Японский облачный суперкомпьютер ABCI подвергся модернизации

Популярность идей машинного обучения и искусственного интеллекта приводит к тому, что многие страны и организации планируют обзавестись HPC-системами, специально предназначенными для этого класса задач. В частности, Токийский университет совместно с Fujitsu модернизировал существующую систему ABCI (AI Bridging Cloud Infrastructure), снабдив её новейшими процессорами Intel Xeon и ускорителями NVIDIA.

Как правило, когда речь заходит о суперкомпьютерах Fujitsu, вспоминаются уникальные наработки компании в сфере HPC — процессоры A64FX, но ABCI имеет более традиционную гетерогенную архитектуру. Изначально этот облачный суперкомпьютер включал в себя вычислительные узлы на базе Xeon Gold и ускорителей NVIDIA V100, объединённых 200-Гбит/с интерконнектом. В качестве файловой системы применена разработка IBM — Spectrum Scale. Это одна систем, специально созданных для решения задач искусственного интеллекта, при этом доступная независимым исследователям и коммерческим компаниям.

Так, 86% пользователей ABCI не входят в состав Японского национального института передовых технических наук (AIST); их число составляет примерно 2500. Но система явно нуждалась в модернизации. Как отметил глава AIST, с 2019 года загруженность ABCI выросла вчетверо, и сейчас на ней запущено 360 проектов, 60% из которых от внешних заказчиков. Сценарии использования самые разнообразные, от распознавания видео до обработки естественных языков и поиска новых лекарств.

Новые узлы ABCI заметно отличаются по архитектуре от старых

Новые узлы ABCI 2.0 заметно отличаются по архитектуре от старых

Как и в большей части систем, ориентированных на машинное обучение, упор при модернизации ABCI был сделан на вычислительную производительность в специфических форматах, включая FP32 и BF16. Изначально в состав ABCI входило 1088 узлов, каждый с четырьмя ускорителями V100 формата SXM2 и двумя процессорами Xeon Gold 6148. После модернизации к ним добавилось 120 узлов на базе пары Xeon Ice Lake-SP и восьми ускорителей A100 формата SXM4. Здесь вместо InfiniBand EDR используется уже InfiniBand HDR.

Стойка с новыми вычислительными узлами ABCI 2.0

Стойка с новыми вычислительными узлами ABCI 2.0

Согласно предварительным ожиданиям, производительность обновлённого суперкомпьютера должна вырасти практически в два раза на задачах вроде ResNet50, в остальных случаях заявлен прирост производительности от полутора до трёх раз. На вычислениях половинной точности речь идёт о цифре свыше 850 Пфлопс, что вплотную приближает ABCI к системам экза-класса. Разработчики также надеются повысить энергоэффективность системы путём применения специфических ускорителей, включая ASIC, но пока речь идёт о связке Intel + NVIDIA.

ABCI и сейчас можно назвать экономичной системой — при максимальной общей мощности комплекса 3,25 МВт сам суперкомпьютер при полной нагрузке потребляет лишь 2,3 МВт. Поскольку система ориентирована на предоставление вычислительных услуг сторонним заказчикам, модернизировано и системное ПО, в котором упор сместился в сторону контейнеризации.

Постоянный URL: http://servernews.ru/1044432
Система Orphus