Материалы по тегу: hpc
20.08.2023 [14:24], Руслан Авдеев
Гарвардские учёные развернули в облаке Google Cloud виртуальный суперкомпьютер для медицинских исследованийКак сообщает Silicon Angle, учёные Гарвардского университета развёрнули в Google Cloud Platform облачный суперкомпьютер для эффективного изучения способов лечения заболеваний сердца. Ожидается, что такой метод использования облачных ресурсов поможет и другим учёным, имеющим затруднения с доступом к мощным HPC-системам. По словам учёных, исследование предполагало моделирование новой методики лечения, в теории позволяющей растворять тромбы и устранять опухолевые клетки в кровеносной системе. Для этого требовались большие вычислительные ресурсы, обычно доступные только пользователям суперкомпьютеров. Команде выделили машинное время для проведения лишь одной симуляции на суперкомпьютере, поэтому им пришлось искать выход из положения. В итоге учёные обратились к Citadel Securities, которая помогла развернуть виртуальный суперкомпьютер в облаке Google. Платформы вроде Google Cloud по умолчанию не очень хорошо подходят для выполнения научных задач, поскольку для этого требуется ряд изменений в инфраструктуре, которые уже делаются. А пока Гарвард совместно с Citadel Securities и Швейцарской высшей технической школой Цюриха объединили тысячи инстансов в Google Cloud для создания виртуального суперкомпьютера. Они провели тонкую настройку ПО для объединения распределённых ресурсов и добились порядка 80 % производительности реального суперкомпьютера. Впрочем, некоторые эксперты сомневаются, что такой метод доступа к HPC-ресурсам составит конкуренцию настоящим суперкомпьютерам, поскольку загрузка облачных платформ и без того высока, особенно в эпоху освоения генеративного ИИ. Отметим, что масштабные облачные HPC-системы сами по себе далеко не новы. Один из первых экспериментов был сделан ещё в 2019 году, тогда удалось объединить 50 тыс. ускорителей. А пару лет назад облачный суперкомпьютер Descartes Labs попал в TOP500.
18.08.2023 [11:23], Сергей Карасёв
AWS запустила HPC-инстансы EC2 Hpc7a на базе AMD EPYC GenoaВ январе 2022 года облачная платформа Amazon Web Services (AWS) представила EC2-инстансы Hpc6a на базе процессоров AMD EPYC Milan для обработки HPC-задач. А теперь дебютировало новое поколение этих решений — EC2 Hpc7a с более производительными чипами AMD EPYC Genoa. Hpc7a уже доступны в трёх регионах: US East (Огайо), EU (Ирландия) и US GovCloud. Утверждается, что по сравнению с EC2 Hpc6a инстансы нового поколения обеспечивают повышение быстродействия до 2,5 раза. Говорится об использовании сетевого подключения на базе Elastic Fabric Adapter (EFA) со скоростью передачи данных 300 Гбит/с. Инстансы EC2 Hpc7a выполнены на основе AWS Nitro. Используется оперативная память DDR5 объёмом 768 Гбайт. Заказчики могут выбирать из четырёх основных конфигураций — с 24, 48, 96 и 192 вычислительными ядрами EPYC Genoa. Для хранения данных доступны только тома Elastic Block Store (EBS). Отмечается, что инстансы EC2 Hpc7a отлично подходят для выполнения таких задач, как вычислительная гидродинамика и численные прогнозы погоды. Дополнительно можно использовать инструмент ParallelCluster с открытым исходным кодом, который упрощает развертывание кластеров HPC и управление ими. Вместе с тем средства AWS Batch помогают эффективно выполнять сотни тысяч пакетных задач в области вычислений и машинного обучения, при этом оптимизируя использование ресурсов.
17.08.2023 [19:02], Руслан Авдеев
Министерство энергетики США выделило $112 млн на суперкомпьютерные проекты по изучению и развитию термоядерного синтезаПоскольку термоядерный синтез стал одной из самых популярных технологических тем, соответствующим проектам выделяется немало ресурсов. Как сообщает The Register, Министерство энергетики Соединённых Штатов (DoE) намерено вложить более $100 млн в суперкомпьютерные проекты, которые призваны ускорить развитие термоядерной энергетики. Всего будет потрачено $112 млн на 12 проектов. Программа Scientific Discovery through Advanced Computing (SciDAC) объединила уже существующие проекты Fusion Energy Sciences (FES) и Advanced Scientific Computing Research (ASCR). Такая комбинация, возможно, позволит осуществить новый прорыв в сфере «чистой» энергетики, задействовав ресурсы суперкомпьютеров, в том числе систем экзафлопсного класса. В декабре 2022 года DoE уже выделило $33 млн исследователям, желающим применить машинное обучение и ИИ для анализа экспериментов с термоядерным синтезом. Основной акцент в этом случае делался на развитии пилотных технологий синтеза с помощью вычислительных систем. Средства были выделены после успехов Ливерморской национальной лаборатории (LLNL), которой удалось запустить реакцию термоядерного синтеза с положительным КПД (правда, без учёта затрат на питание лазеров для старта реакции). С помощью суперкомпьютеров в рамках новой программы SciDAC предполагается моделирование изменения состояний плазмы в экстремальных условиях, изучение турбулентности в реакторах, использование ИИ для прогнозирования и устранения проблем потери энергии, моделирование стеллараторов и разработка пилотных термоядерных электростанций в целом.
10.08.2023 [15:26], Руслан Авдеев
Майнинг, ЦОД и ИИ: HPC-оператор Nothern Data Group разделил бизнес между тремя брендамиКомпания Nothern Data Group, поставщик HPC-инфраструктуры и специалист в области майнинга криптовалют, провела реструктуризацию. Как сообщает DataCenter Dynamics, теперь деятельность компании поделена между тремя брендами: Taiga Cloud, Ardent Data Centers и Peak Mining. При этом Northern Data Group по-прежнему останется «материнской» компанией, осуществляющей общее управление. Northern Data Group была основана в 2009 году в Германии под именем Northern Bitcoin AG для «зелёного» майнинга биткоинов. В 2019 году состоялось слияние с Whinstone US, глава которой Аруш Тиллайнатан (Aroosh Thillainathan) стал руководителем новой структуры. В 2020 году её переименовали в Nothern Data Group. Теперь руководством выделенными направлениями займутся три нынешних управляющих директора головной компании, а Тиллайнатан по-прежнему останется генеральным директором. Карл Хавард (Karl Havard) будет руководить Taiga Cloud — подразделение предложит облычные сервисы для генеративного ИИ, питаемые за счёт «чистой» энергии. Кори Нидлз (Corey Needles) будет руководить Ardent Data Centers, которая займётся строительством и оснащением ЦОД, рассчитанных на HPC-системы будущего с СЖО. Наконец, Peak Mining займётся майнингом биткоинов, компанию возглавит Ник Бьюдекер (Niek Beudeker). По словам Тиллайнатана, сегодня работа ведётся в условиях стремительного роста рынка генеративных ИИ-систем, вызвавших взлёт рост спроса на вычислительные мощности. Запуск трёх отдельных брендов позволит гибко использовать рыночные возможности в каждом из секторов цифровой экономики. Хотя компания Nothern Group по-прежнему уделяет немало внимания майнингу, теперь она активно работает и над решениями для рынка HPC-вычислений в целом.
08.08.2023 [23:15], Игорь Осколков
NVIDIA представила обновлённый вариант гибридного ускорителя GH200 с 141 Гбайт памяти HBM3eВсего два с небольшим месяца назад NVIDIA объявила о начале массового производства гибридных суперчипов Grace Hopper GH200 и анонсировала 1-Эфлопс ИИ-суперкомпьютер на их основе. Первые решения на базе этих чипов станут доступны до конца текущего года, а уже во II квартале 2024 года появится новая версия Grace Hopper, которая получит 141 Гбайт набортной памяти HBM3e. В этом и заключается их отличие от оригинальных GH200, которые оснащаются 96 Гбайт HBM3. Помимо увеличения объёма памяти выросла и её пропускная способность, с 4 до 5 Тбайт/с. Ну и если заявленный объём LPDDR5x в 500 Гбайт не является округлением исходных 480 Гбайт, то и здесь тоже есть небольшой прирост. При этом производительность новой версии осталась на прежнем уровне — 4 Пфлопс с Transformer Engine (без явного указания точности вычислений). Тем не менее, прирост ПСП и объёма памяти положительно скажется как на процессе обучения ИИ-моделей, так и, что особенно важно, на инференсе. Прочие технические характеристики новинок компания пока не раскрыла, но сообщила о сохранении совместимости с платформой NVIDIA MGX и возможности объединения множества суперчипов и узлов посредством NVLink. Новинке придётся соревноваться с ускорителями AMD Instinct MI300A, которые должны появиться на рынке чуть раньше.
01.08.2023 [10:02], Сергей Карасёв
Esperanto готовит универсальный чип ET-SoC-2 на базе RISC-V для задач НРС и ИИСтартап Esperanto Technologies, по сообщению ресурса HPC Wire, готовит новый чип с архитектурой RISC-V, ориентированный на системы высокопроизводительных вычислений (НРС) и задачи ИИ. Изделие получит обозначение ET-SoC-2. Нынешний чип ET-SoC-1 объединяет 1088 энергоэффективных ядер ET-Minion и четыре высокопроизводительных ядра ET-Maxion. Решение предназначено для инференса рекомендательных систем, в том числе на периферии. Чип ET-SoC-2 будет включать в себя новые высокопроизводительные ядра CPU на базе RISC-V с векторными расширениями. Точные данные о производительности не раскрываются, но говорится, что изделие обеспечит быстродействие с двойной точностью более 10 Тфлопс. Архитектура ET-SoC-2 предполагает совместную работу сотен и тысяч чипов для организации платформ НРС. При этом Esperanto делает упор на энергетической эффективности своих решений. По словам Дейва Дитцеля (Dave Ditzel), генерального директора Esperanto, чипы RISC-V смогут взять на себя функции и CPU, и GPU при обработке ресурсоёмких приложений, в частности, машинного обучения. Процессоры RISC-V отстают по производительности от чипов x86 и Arm, хотя разрыв постепенно сокращается. Дитцель сказал, что стойки с чипами ET-SoC-1 могут обеспечить производительность в петафлопсы. Однако проблема с внедрением RISC-V заключается в слабо развитой экосистеме ПО.
27.07.2023 [14:09], Сергей Карасёв
AWS запустила инстансы EC2 P5 на базе NVIDIA H100 для масштабных ИИ-задачОблачная платформа AWS официально объявила о доступности инстансов EC2 P5, которые предназначены для работы с большими языковыми моделями и генеративным ИИ. Благодаря масштабируемости производительность кластеров P5 может достигать 20 Эфлопс (точность вычислений не указана), что позволит решать самые сложные вычислительные задачи. О подготовке инстансов EC2 P5 сообщалось в марте нынешнего года. В основу положены ускорители NVIDIA H100, количество которых в составе кластеров EC2 UltraClusters второго поколения может превышать 20 тыс. Каждый инстанс P5 оснащён восемью ускорителями NVIDIA H100. Задействованы процессоры AMD EPYC Milan, а количество vCPU достигает 192. Общий объём системной памяти равен 2 Тбайт; локальное хранилище включает восемь SSD вместимостью 3,84 Тбайт каждый. Используются адаптеры AWS Elastic Fabric Adapter (EFA) второго поколения с низкой задержкой, агрегированной скоростью передачи данных 3200 Тбит/с и поддержкой NVIDIA GPUDirect RDMA. Заявленная производительность в расчёте на инстанс достигает 16 Пфлопс FP8 и 8 Пфлопс FP16. Утверждается, что при использовании EC2 P5 время тренировки моделей машинного обучения сокращается в шесть раз по сравнению с инстансами AWS предыдущего поколения. В настоящее время доступ к EC2 P5 предоставляется в регионах US East (Северная Вирджиния) и US West (Орегон).
26.07.2023 [11:29], Сергей Карасёв
В Японии появится новый суперкомпьютер для генеративного ИИМинистерство экономики, торговли и промышленности Японии (METI), по сообщению ресурса Datacenter Dynamics, реализует проект по созданию нового суперкомпьютера, предназначенного для генеративного ИИ. Его ресурсы будут доступны через облачную платформу местным компаниям, которые ведут разработки в соответствующей сфере. Вычислительный комплекс расположится в новом исследовательском центре Японского национального института передовых технических наук и технологии (AIST). На создание этой площадки METI предоставит финансирование в размере $226 млн. Центр будет специализироваться на суперкомпьютерных и квантовых технологиях. Подробности о проекте не раскрываются. По имеющейся информации, строящийся вычислительный комплекс получит более 2 тыс. ускорителей NVIDIA. В создании системы принимают участие специалисты Sakura Internet. Ввод суперкомпьютера в эксплуатацию запланирован на 2024 год. Нынешний суперкомпьютер AIST под названием AI Bridging Cloud Infrastructure (ABCI) используется примерно 3000 компаний и организаций. В текущем рейтинге Тор500 он занимает 24-е место с производительностью приблизительно 22 Пфлопс. Но этой системе не хватает ресурсов для работы с генеративным ИИ. Будущий вычислительный комплекс обеспечит примерно в 2,5 раза более высокое быстродействие.
26.07.2023 [01:05], Руслан Авдеев
Индия закупается суперкомпьютерами для метеорологов из-за «чрезвычайно неустойчивых» климатических условийИндийские метеорологи ожидают важное пополнение IT-парка. По данным DataCenter Dynamics, чтобы они моли делать более точные метеорологические прогнозы и моделировать погодные и климатические процессы, было решено установить два новых суперкомпьютера производительностью 10 и 18 Пфлопс соответственно. Уже имеющиеся кластеры Pratyush (4 Пфлопс) и Mihir (2,8 Пфлопс) продолжат свою работу совместно с новыми машинам в рамках миссии Monsoon Phase 3. Ожидаемая дата ввода первого будущего суперкомпьютера в эксплуатацию пока не называется, как и его достоверные спецификации. Вторая же машина, судя по всему, одна из двух, на которые Индия недавно оформила заказ — общая мощность систем составит около 18 Пфлопс, хотя данные в разных источниках не вполне совпадают. По данным местных чиновников, решение о покупке новых суперкомпьютеров вызвано «чрезвычайно неустойчивыми» климатическими условиями. Новые аппаратные мощности позволят увеличить разрешающую способность при картографировании климатических изменений с 12×12 км до 6×6 км. Одна из машин будет использоваться для краткосрочных прогнозов, вторая — для более долгосрочного моделирования.
25.07.2023 [15:09], Сергей Карасёв
TACC получит 10-Пфлопс суперкомпьютер Stampede3 на базе Intel Max и 400G Omni-PathТехасский центр передовых вычислений (TACC) при Техасском университете в Остине (США) анонсировал НРС-комплекс Stampede3, на создание которого Национальный научный фонд (NSF) выделил $10 млн. Новый суперкомпьютер станет последователем систем Stampede (2012 год) и Stampede2 (2017 год). В состав Stampede3 войдут 560 узлов на базе двух 56-ядерных процессоров Intel Xeon Max с 64 Гбайт встроенной памяти HBM2e. Это в сумме даст почти 63 тыс. вычислительных ядер общего назначения, а пиковая производительность составит около 4 Пфлопс (FP64). Кроме того, Stampede3 будет включать в себя 10 серверов Dell PowerEdge XE9640, содержащих 40 ускорителей Intel Max (Ponte Vecchio). Примечательно, что новые CPU-узлы не будут оснащаться DDR5. Если памяти на ядро для некоторых задач будет не хватать, то их перенесут на другие узлы — в составе Stampede3 будут повторно задействованы 224 узла Stampede2 с двумя 40-ядерными процессорами Intel Xeon Ice Lake-SP и 256 Гбайт RAM. Более того, к ним присоединятся 1064 узла системы Stampede2, каждый из которых содержит два чипа Intel Xeon Skylake-SP с 24 ядрами и 192 Гбайт памяти. Фактически TACC теперь полностью избавилась от Xeon Phi и сохранила часть узлов от старых систем в новой машине, а некоторые пустила на создание склада запчастей. В общей сложности Stampede3 объединит 1858 вычислительных узлов, содержащих более 140 000 процессорных ядер и свыше 330 Тбайт памяти. Пиковая производительность составит почти 10 Пфлопс. Ещё одна интересная особенность суперкомпьютера — использование новейшего 400-Гбит/с интерконнекта Omni-Path. Точнее, часть старых систем останется с 100G Omni-Path, хотя коммутаторы будут обновлены. То есть Cornelis Networks сдержала обещание, пропустив поколение OPA-200 и сразу перейдя к созданию OPA-400. Кроме того, суперкомпьютер получит полностью новое All-Flash (QLC) хранилище VAST вместимостью 13 Пбайт и скоростью доступа 450 Гбайт/с, тоже на базе серверов Dell. СХД придёт на замену Lustre-хранилищу. Узлы Stampede3 будут поставлены осенью нынешнего года, а на полную мощность суперкомпьютер заработает в начале 2024-го. Комплекс станет частью вычислительной экосистемы ACCESS Национального научного фонда. |
|