Материалы по тегу: hpc

01.09.2023 [14:05], Сергей Карасёв

В Лос-Аламосской лаборатории запущен суперкомпьютер Crossroads на базе Intel Xeon Sapphire Rapids

Лос-Аламосская национальная лаборатория (LANL) Министерства энергетики США сообщила о запуске суперкомпьютера Crossroads — первого в мире крупного вычислительного комплекса, полагающегося исключительно на процессоры Intel Xeon Sapphire Rapids, в том числе с HBM-памятью. Система будет применяться для решения сложных научных задач, связанных с ядерным арсеналом США.

О создании 165-Пфлопс машины впервые было объявлено в конце 2020 года, а первая фаза установки Crossroads была завершена в октябре 2022 года. Тогда говорилось, что по FP64-производительности новый суперкомпьютер превзойдёт существующую систему LANL Trinity в четыре раза. Отличительной чертой машины является то, что она полагается исключительно на CPU Intel.

Как теперь сообщается, в июне оставшееся оборудование, включая компоненты системы жидкостного охлаждения, было доставлено в Стратегический вычислительный комплекс (Strategic Computing Complex), где размещены HPC-системы LANL. После этого специалисты HPE произвели монтаж узлов и обеспечили подключение Crossroads к сети лаборатории. В настоящее время проводится первоначальная диагностика систем Crossroads. Суперкомпьютер станет доступен пользователям нынешней осенью.

 Источник изображения: LANL

Источник изображения: LANL

Утверждается, что Crossroads обеспечит в четыре–восемь раз более высокую производительность по сравнению с Trinity при решении сложных задач моделирования. Но точные показатели быстродействия пока не раскрываются. Известно, что в состав суперкомпьютера входят узлы с HBM-версией Sapphire Rapids (Intel Max), а также подсистема хранения данных типа All-Flash.

Постоянный URL: http://servernews.ru/1092387
29.08.2023 [17:50], Сергей Карасёв

10 тыс. ускорителей NVIDIA H100: Tesla запустила один из мощнеших ИИ-суперкомпьютеров в мире

Компания Tesla, по сообщению Tom's Hardware, в минувший понедельник, 28 августа 2023 года, запустила вычислительный кластер для решения ресурсоемких задач, связанных с ИИ. В основу платформы положены 10 тыс. ускорителей NVIDIA H100.

Отмечается, что система обеспечивает пиковую производительность в 340 Пфлопс FP64 для технических вычислений и 39,58 Эфлопс INT8 для приложений ИИ. Таким образом, по производительности FP64 кластер превосходит суперкомпьютер Leonardo, который располагается на четвёртой позиции в нынешнем рейтинге Тор500 с показателем 304 Пфлопс.

Фактически кластер Tesla на базе NVIDIA H100 является одной из самых мощных платформ в мире. Он подходит не только для обработки алгоритмов ИИ, но и для НРС-задач. Благодаря данной системе Tesla значительно расширит свои ресурсы для создания полноценного автопилота. А это поможет компании Илона Маска получить конкурентные преимущества перед другими разработчиками умных транспортных средств. На формирование кластера потрачено около $300 млн.

 Изображение: Twitter / Sawyer Merritt

Изображение: Twitter / Sawyer Merritt

Однако на рынке сформировался дефицит ускорителем NVIDIA H100. На этом фоне Tesla создаёт ИИ-суперкомпьютер Dojo, в основу которого лягут специализированные чипы собственной разработки — Tesla D1. К концу следующего года, по словам Илона Маска, производительность ИИ-систем Tesla может быть доведена до 100 Эфлопс. Стоимость проекта оценивается в $1 млрд. На обучение ИИ-моделей Tesla намерена потратить более $2 млрд в текущем году и примерно такую же сумму в 2024-м.

Постоянный URL: http://servernews.ru/1092217
26.08.2023 [22:52], Руслан Авдеев

Бывший работодатель обвинил основателя Rocky Linux в краже интеллектуальной собственности

Компания Sylabs, занимающаяся разработкой программного обеспечения для HPC-систем, обвинила соперника Ctrl IQ (CIQ) и её основателя Грега Курцера (Greg Kurtzer), который наиболее известен созданием CentOS, в краже данных, составляющих коммерческую тайну. Как сообщает The Register, компания считает, что эта информация позволила главе CIQ основать свой бизнес, хотя тот называет обвинения беспочвенными.

Иск был подан в Калифорнии ещё в феврале этого года, но материалы по нему стали доступны публике тольком летом. Курцер ранее работал главой Sylabs, но в марте 2020 года основал собственную компанию CIQ, которая в числе прочего также занимается технологиями, связанными с HPC-решениями. Одним из важных проектов CIQ является спонсорство разработки ОС Rocky Linux.

 Изображение: CIQ

Изображение: CIQ

Основным проектом Sylabs является открытая контейнерная платформа Singularity. При этом разработчик предлагает и смежные платные продукты и сервисы — именно с ними связан иск к CIQ и Курцеру. Sylabs обвиняет Курцера и некоторых других его коллег в скоординированном увольнении в марте 2020 года. Причём некоторые из бывших сотрудников Sylabs, как предполагается, незадолго до официального ухода «навестили» серверы работодателя и похитили интеллектуальную собственность.

Sylabs утверждает, что разрабатывала проприетарную коммерческую технологию Fuzzball для управления HPC-системами, но Курцер якобы присвоил её и сделал доступной в формате open source специально для того, чтобы ей могла бесплатно пользоваться созданная им CIQ. При этом последняя подала заявки на регистрацию патентов как на Fuzzball, так и на ещё одну технологию Sylabs — Armored Containers для защиты контейнеров.

Истцы утверждают, что соответствующие технологии они разрабатывали ещё в 2019 году — и этому есть доказательства. Дополнительно Курцер, возможно, скачивал документы компании, связанные с процессом продаж и даже перенаправлял запросы на покупку ПО на личные почтовые адреса до своего увольнения 1 апреля 2020 года. В ряде правонарушений обвиняются и другие сотрудники, а также компании OpenDrives и IAG Capital Partners, которые, инвестировали в CIQ, якобы понимая, что новая компания ведёт дела недобросовестно.

 Изображение: CIQ

Изображение: CIQ

По словам представителя Sylabs, Курцер и его соратники замешаны в краже у Sylabs интеллектуальной собственности, сведений, составляющих коммерческую тайну, корпоративных секретов, конфиденциальной информации о персонале, клиентах и партнёрах. Также Курцер опубликовал интеллектуальную собственность Sylabs как ПО с открытым кодом, которое и стало базой для создания продуктов CIQ, в результате привлёкшей $33 млн инвестиций. Наконец, попытки получения патентов в США также незаконны, считает Sylabs.

В CIQ отвергают все обвинения, заявляя, что речь идёт всего лишь о зависти конкурента — CIQ якобы добилась большего успеха, чем Sylabs. Отмечается, что Курцером и его единомышленниками при увольнении было заключено соглашение, согласно которому Sylabs не возражала против основания компании с независимо разработанным ПО и отказывалась от претензий в будущем. CIQ действительно активно развивается — компания в конце прошлого месяца анонсировала партнёрскую программу.

Постоянный URL: http://servernews.ru/1092026
25.08.2023 [12:41], Руслан Авдеев

ЦОД для ИИ: CyrusOne Intelliscale предложит до 300 кВт на стойку

Компания CyrusOne предложила дизайн ЦОД, специально оптимизированный для работы с ИИ-проектами. Как сообщает DataCenter Dynamics, он комбинирует погружное охлаждение и другие технологии, благодаря чему можно добиться высокой плотности размещения ресурсов на стойку — до 300 кВт на стойку. Недавно Digital Realty предложила клиентам 70-кВт стойки.

По словам CyrusOne, проект Intelliscale способен поменять правила игры в индустрии ИИ-решений и является первым в своём роде — специально разработанным под нужды ИИ-приложений и сервисов. Мощности Intelliscale специально созданы для обслуживания высокопроизводительного аппаратного обеспечения. Задействованы прямое жидкостное охлаждение процессоров, встроенные в дверцы теплообменники и погружное охлаждение. При этом модульная структура и дизайн Intelliscale предусматривает нулевое потребление воды.

 Источник изображения: CyrusOne

Источник изображения: CyrusOne

По данным CyrusOne, новые решения могут занимать всего четверть от площади сопоставимых классических ЦОД (в зависимости от решаемых задач). При этом сами здания могут быть как одно-, таки многоуровневыми. В некоторых случаях она позволяет модернизировать и уплотнить уже существующие ИИ-мощности. По словам CyrusOne, внедрение Intelliscale сегодня позволит обеспечить работу ресурсоёмкого оборудования в будущем, поскольку спрос на ИИ будет только увеличиваться. Технология позволит бизнесам выходить на рынок быстро и с меньшими затратами, чем с использованием классических ЦОД.

Постоянный URL: http://servernews.ru/1092016
22.08.2023 [11:57], Сергей Карасёв

Microsoft создаст ИИ-платформу для Petronas

Petronas Digital, цифровая структура малайзийской энергетической компании Petronas, по сообщению издания Datacenter Dynamics, подписала соглашение с Microsoft о создании НРС-платформы для решения сложных и ресурсоёмких задач, связанных с ИИ.

Petronas намерена использовать НРС-инфраструктуру для запуска ИИ-алгоритмов и приложений машинного обучения с целью разработки новых технологий декарбонизации. Кроме того, платформа поможет выработать более эффективные методы использования энергии.

Microsoft реализует проект в сотрудничестве с Cegal — облачным провайдером, работающим в сфере энергетики и безопасности. Отмечается, что Petronas уже сотрудничает с обеими названными компаниями: они предоставляют энергетическому гиганту облачные услуги, сервисы автоматизации и пр.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Планируется, что создаваемая для Petronas платформа HPC также будет доступна для использования другими компаниями энергетического сектора Малайзии, включая производственных подрядчиков. Об объёме инвестиций в проект стороны умалчивают.

«HPC-возможности и средства ИИ помогут дополнительно оптимизировать наши энергетические услуги и будут способствовать внедрению инноваций в энергетическом секторе», — отметил вице-президент Petronas по технологиям и коммерциализации Аадрин Азли (Aadrin Azly).

Постоянный URL: http://servernews.ru/1091827
20.08.2023 [14:24], Руслан Авдеев

Гарвардские учёные развернули в облаке Google Cloud виртуальный суперкомпьютер для медицинских исследований

Как сообщает Silicon Angle, учёные Гарвардского университета развёрнули в Google Cloud Platform облачный суперкомпьютер для эффективного изучения способов лечения заболеваний сердца. Ожидается, что такой метод использования облачных ресурсов поможет и другим учёным, имеющим затруднения с доступом к мощным HPC-системам.

По словам учёных, исследование предполагало моделирование новой методики лечения, в теории позволяющей растворять тромбы и устранять опухолевые клетки в кровеносной системе. Для этого требовались большие вычислительные ресурсы, обычно доступные только пользователям суперкомпьютеров. Команде выделили машинное время для проведения лишь одной симуляции на суперкомпьютере, поэтому им пришлось искать выход из положения. В итоге учёные обратились к Citadel Securities, которая помогла развернуть виртуальный суперкомпьютер в облаке Google.

 Источник изображения: franganillo/pixabay.com

Источник изображения: franganillo/pixabay.com

Платформы вроде Google Cloud по умолчанию не очень хорошо подходят для выполнения научных задач, поскольку для этого требуется ряд изменений в инфраструктуре, которые уже делаются. А пока Гарвард совместно с Citadel Securities и Швейцарской высшей технической школой Цюриха объединили тысячи инстансов в Google Cloud для создания виртуального суперкомпьютера. Они провели тонкую настройку ПО для объединения распределённых ресурсов и добились порядка 80 % производительности реального суперкомпьютера.

Впрочем, некоторые эксперты сомневаются, что такой метод доступа к HPC-ресурсам составит конкуренцию настоящим суперкомпьютерам, поскольку загрузка облачных платформ и без того высока, особенно в эпоху освоения генеративного ИИ. Отметим, что масштабные облачные HPC-системы сами по себе далеко не новы. Один из первых экспериментов был сделан ещё в 2019 году, тогда удалось объединить 50 тыс. ускорителей. А пару лет назад облачный суперкомпьютер Descartes Labs попал в TOP500.

Постоянный URL: http://servernews.ru/1091736
18.08.2023 [11:23], Сергей Карасёв

AWS запустила HPC-инстансы EC2 Hpc7a на базе AMD EPYC Genoa

В январе 2022 года облачная платформа Amazon Web Services (AWS) представила EC2-инстансы Hpc6a на базе процессоров AMD EPYC Milan для обработки HPC-задач. А теперь дебютировало новое поколение этих решений — EC2 Hpc7a с более производительными чипами AMD EPYC Genoa. Hpc7a уже доступны в трёх регионах: US East (Огайо), EU (Ирландия) и US GovCloud.

Утверждается, что по сравнению с EC2 Hpc6a инстансы нового поколения обеспечивают повышение быстродействия до 2,5 раза. Говорится об использовании сетевого подключения на базе Elastic Fabric Adapter (EFA) со скоростью передачи данных 300 Гбит/с. Инстансы EC2 Hpc7a выполнены на основе AWS Nitro.

 Источник изображения: AWS

Источник изображения: AWS

Используется оперативная память DDR5 объёмом 768 Гбайт. Заказчики могут выбирать из четырёх основных конфигураций — с 24, 48, 96 и 192 вычислительными ядрами EPYC Genoa. Для хранения данных доступны только тома Elastic Block Store (EBS).

 Источник: AWS

Источник: AWS

Отмечается, что инстансы EC2 Hpc7a отлично подходят для выполнения таких задач, как вычислительная гидродинамика и численные прогнозы погоды. Дополнительно можно использовать инструмент ParallelCluster с открытым исходным кодом, который упрощает развертывание кластеров HPC и управление ими. Вместе с тем средства AWS Batch помогают эффективно выполнять сотни тысяч пакетных задач в области вычислений и машинного обучения, при этом оптимизируя использование ресурсов.

Постоянный URL: http://servernews.ru/1091672
17.08.2023 [19:02], Руслан Авдеев

Министерство энергетики США выделило $112 млн на суперкомпьютерные проекты по изучению и развитию термоядерного синтеза

Поскольку термоядерный синтез стал одной из самых популярных технологических тем, соответствующим проектам выделяется немало ресурсов. Как сообщает The Register, Министерство энергетики Соединённых Штатов (DoE) намерено вложить более $100 млн в суперкомпьютерные проекты, которые призваны ускорить развитие термоядерной энергетики.

Всего будет потрачено $112 млн на 12 проектов. Программа Scientific Discovery through Advanced Computing (SciDAC) объединила уже существующие проекты Fusion Energy Sciences (FES) и Advanced Scientific Computing Research (ASCR). Такая комбинация, возможно, позволит осуществить новый прорыв в сфере «чистой» энергетики, задействовав ресурсы суперкомпьютеров, в том числе систем экзафлопсного класса.

В декабре 2022 года DoE уже выделило $33 млн исследователям, желающим применить машинное обучение и ИИ для анализа экспериментов с термоядерным синтезом. Основной акцент в этом случае делался на развитии пилотных технологий синтеза с помощью вычислительных систем. Средства были выделены после успехов Ливерморской национальной лаборатории (LLNL), которой удалось запустить реакцию термоядерного синтеза с положительным КПД (правда, без учёта затрат на питание лазеров для старта реакции).

 Источник изображения: ChadoNihi/unsplash.com

Источник изображения: ChadoNihi/unsplash.com

С помощью суперкомпьютеров в рамках новой программы SciDAC предполагается моделирование изменения состояний плазмы в экстремальных условиях, изучение турбулентности в реакторах, использование ИИ для прогнозирования и устранения проблем потери энергии, моделирование стеллараторов и разработка пилотных термоядерных электростанций в целом.

Постоянный URL: http://servernews.ru/1091649
10.08.2023 [15:26], Руслан Авдеев

Майнинг, ЦОД и ИИ: HPC-оператор Nothern Data Group разделил бизнес между тремя брендами

Компания Nothern Data Group, поставщик HPC-инфраструктуры и специалист в области майнинга криптовалют, провела реструктуризацию. Как сообщает DataCenter Dynamics, теперь деятельность компании поделена между тремя брендами: Taiga Cloud, Ardent Data Centers и Peak Mining. При этом Northern Data Group по-прежнему останется «материнской» компанией, осуществляющей общее управление.

Northern Data Group была основана в 2009 году в Германии под именем Northern Bitcoin AG для «зелёного» майнинга биткоинов. В 2019 году состоялось слияние с Whinstone US, глава которой Аруш Тиллайнатан (Aroosh Thillainathan) стал руководителем новой структуры. В 2020 году её переименовали в Nothern Data Group. Теперь руководством выделенными направлениями займутся три нынешних управляющих директора головной компании, а Тиллайнатан по-прежнему останется генеральным директором.

Карл Хавард (Karl Havard) будет руководить Taiga Cloud — подразделение предложит облычные сервисы для генеративного ИИ, питаемые за счёт «чистой» энергии. Кори Нидлз (Corey Needles) будет руководить Ardent Data Centers, которая займётся строительством и оснащением ЦОД, рассчитанных на HPC-системы будущего с СЖО. Наконец, Peak Mining займётся майнингом биткоинов, компанию возглавит Ник Бьюдекер (Niek Beudeker).

 Фото: Nothern Data

Фото: Nothern Data

По словам Тиллайнатана, сегодня работа ведётся в условиях стремительного роста рынка генеративных ИИ-систем, вызвавших взлёт рост спроса на вычислительные мощности. Запуск трёх отдельных брендов позволит гибко использовать рыночные возможности в каждом из секторов цифровой экономики. Хотя компания Nothern Group по-прежнему уделяет немало внимания майнингу, теперь она активно работает и над решениями для рынка HPC-вычислений в целом.

Постоянный URL: http://servernews.ru/1091277
08.08.2023 [23:15], Игорь Осколков

NVIDIA представила обновлённый вариант гибридного ускорителя GH200 с 141 Гбайт памяти HBM3e

Всего два с небольшим месяца назад NVIDIA объявила о начале массового производства гибридных суперчипов Grace Hopper GH200 и анонсировала 1-Эфлопс ИИ-суперкомпьютер на их основе. Первые решения на базе этих чипов станут доступны до конца текущего года, а уже во II квартале 2024 года появится новая версия Grace Hopper, которая получит 141 Гбайт набортной памяти HBM3e.

В этом и заключается их отличие от оригинальных GH200, которые оснащаются 96 Гбайт HBM3. Помимо увеличения объёма памяти выросла и её пропускная способность, с 4 до 5 Тбайт/с. Ну и если заявленный объём LPDDR5x в 500 Гбайт не является округлением исходных 480 Гбайт, то и здесь тоже есть небольшой прирост. При этом производительность новой версии осталась на прежнем уровне — 4 Пфлопс с Transformer Engine (без явного указания точности вычислений). Тем не менее, прирост ПСП и объёма памяти положительно скажется как на процессе обучения ИИ-моделей, так и, что особенно важно, на инференсе.

 Изображение: NVIDIA

Изображение: NVIDIA

Прочие технические характеристики новинок компания пока не раскрыла, но сообщила о сохранении совместимости с платформой NVIDIA MGX и возможности объединения множества суперчипов и узлов посредством NVLink. Новинке придётся соревноваться с ускорителями AMD Instinct MI300A, которые должны появиться на рынке чуть раньше.

Постоянный URL: http://servernews.ru/1091219
Система Orphus