Материалы по тегу: hardware

25.11.2024 [13:10], Руслан Авдеев

Эффективность новинок NVIDIA в рейтинге суперкомпьютеров Green500 оказалась под вопросом из-за чипов AMD и… самой NVIDIA

Хотя ускорители NVIDIA считаются одними из самых энергоёмких в своём классе, суперкомпьютеры на основе чипов компании по-прежнему доминируют в мировом рейтинге энергоэффективности соответствующих машин — Green500. Тем не менее компания столкнулась с сильной конкуренцией со стороны AMD и не всегда готова состязаться даже с собственной продукцией, сообщает The Register.

На первый взгляд, лидерство проектов на базе NVIDIA неоспоримо. Восемь из десяти суперкомпьютеров, входящих в «Топ-10» энергоэффективных машин, построены на чипах NVIDIA, из них пять — на 1000-ваттных гибридных ускорителях GH200. В новейшем рейтинге Green500 на их основе построены первая и вторая из наиболее энергоэффективных систем — JEDI (EuroHPC) и ROMEO-2025 (Romeo HPC Center). В бенчмарке High-Performance Linpack они продемонстрировали производительность 72,7 Гфлопс/Вт и 70,9 Гфлопс/Вт соответственно (FP64).

Системы почти идентичны и построены на платформе BullSequana XH3000 компании Eviden (Atos). На решение GH200 также приходятся четвёртая, шестая и седьмая позиции рейтинга: Isambard-AI Phase 1 (68,8 Гфлопс/Вт), Jupiter Exascale Transition Instrument (67,9 Гфлопс/Вт) и Helios (66,9 Гфлопс/Вт). Системы с проверенными NVIDIA H100 занимают пятое, восьмое и девятое места — это Capella, Henri и HoreKa-Teal.

 Источник изображения: Jakub Żerdzicki/unsplash.com

Источник изображения: Jakub Żerdzicki/unsplash.com

Тем не менее есть сомнения в том, что продукты NVIDIA и дальше будут безраздельно господствовать в рейтинге Green500. Уже на подходе решения Grace-Blackwell в виде GB200 (2,7 кВт) и GB200 NVL4 (5,4 кВт). Новые продукты далеко не всегда обеспечивают максимальную производительность на ватт энергии. При переходе от A100 (2020 год) к H100 (2022 год) FP64-производительность взлетела приблизительно в 3,5 раза, но в сравнении с 1,2-кВт платформой Blackwell даже 700-Вт H100 в режиме матричных FP64-вычислений фактически быстрее. Для FP64 улучшилась только работа с векторными операциями, где новинки оказались на 32 % производительнее.

Другими словами, хотя сегодня NVIDIA может похвастаться высоким положением в рейтинге Green500, решение на ускорителях MI300A компании AMD уже заняло третье место (Adastra 2). MI300A анонсировали чуть менее года назад, решение получило 24-ядерный CPU и шесть чиплетов CDNA-3 в едином APU-модуле, оснащённым до 128 Гбайт памяти HBM3, а также настраиваемый уровень TDP 550–760 Вт. Более того, такая система в 1,8 раза производительнее NVIDIA H100 (по крайней мере, на бумаге).

Суперкомпьютер Adastra 2 на базе HPE Cray EX255a обеспечивает производительность 69 Гфлопс/Вт. Десятое место также занимает машина на MI300A — RZAdams Ливерморской национальной лаборатории (62,8 Гфлопс/Вт). Таким образом, все системы, входящие в первую десятку рейтинга Green500, уже значительно превышают целевой показатель энергоэффективности в 50 Гфлопс/Вт, необходимый для достижений 1 Эфлопс (FP64) при энергопотреблении до 20 МВт.

Проблема в том, что малые системы значительно эффективнее: JEDI потребляет всего 67 кВт, а самая производительная машина на базе GH200 в рейтинге TOP500 — швейцарская Alps — обеспечивает 434 Пфлопс (FP64), потребляя 7,1 МВт — это лишь 14-я из наиболее энергоэффективных машин (61 Гфлопс/Вт). Та же проблема и с Adastra 2: компьютер потребляет даже меньше JEDI — 37 кВт. Если бы удалось сохранять уровень 69 Гфлопс/Вт в больших масштабах, потребовалось бы всего 25,2 МВт для достижения 1,742 Эфлопс, как у El Capitan. Но последнему требуется около 29,6 МВт для достижения таких рекордных показателей.

Постоянный URL: http://servernews.ru/1114506
25.11.2024 [12:35], Сергей Карасёв

Asustor представила Flashstor NAS второго поколения на платформе AMD Ryzen Embedded

Весной 2023 года компания Asustor анонсировала компактные сетевые хранилища (NAS) типа All-Flash под названием Flashstor 6 и Flashstor 12 на процессорах Intel Jasper Lake. А теперь дебютировали устройства второго поколения — Flashstor 6 Gen2 и Flashstor 12 Pro Gen2, в основу которых легла аппаратная платформа AMD Ryzen Embedded.

Новинки несут на борту чип Ryzen Embedded V3C14 (4C/8T, 2,3/3,8 ГГц, TDP 15 Вт). Процессор работает в тандеме с оперативной памятью DDR5-4800, объём которой составляет 8 Гбайт у младшей модели и 16 Гбайт у старшей. В обоих случаях размер ОЗУ может быть увеличен до 64 Гбайт. Предусмотрен флеш-модуль eMMC вместимостью 8 Гбайт для ОС.

Хранилище Flashstor 6 Gen2 получило шесть коннекторов M.2 для накопителей NVMe SSD с интерфейсом PCIe 4.0, один сетевой порт 10GbE RJ-45 и адаптер питания мощностью 90 Вт. В оснащение Flashstor 12 Pro Gen2 входят 12 коннекторов M.2 для NVMe SSD (8 × PCIe 4.0, 4 × PCIe 3.0), два порта 10GbE RJ-45 и адаптер питания на 120 Вт. Возможно формирование массивов RAID 0/1/5/6/10.

Новинки располагают двумя портами USB4 Type-C (40 Гбит/с) и тремя разъёмами USB 3.2 Gen2 Type-A (10 Гбит/с). Имеется вентилятор охлаждения диаметром 80 мм. Габариты составляют 308,26 × 193 × 48,3 мм, масса —1,45 кг. Диапазон рабочих температур — от 0 до +40 °C.

 Источник изображения: Asustor

Источник изображения: Asustor

Заявленная производительность в конфигурации RAID 5 при чтении / записи достигает 1179 / 1181 Мбайт/с у Flashstor 6 Gen2 и 2331 / 2358 Мбайт/с у Flashstor 12 Pro Gen2. Цена составляет соответственно $1000 и $1400.

Постоянный URL: http://servernews.ru/1114508
25.11.2024 [11:40], Владимир Мироненко

Hyperion Research: рынок HPC куда больше, чем считается, и растёт он куда быстрее

Аналитики The Next Platform считают, что обучение и инференс ИИ в ЦОД также относятся к высокопроизводительным вычислениям (HPC), хотя в некоторых случаях могут значительно отличаться от их традиционного определения.

HPC используют небольшой набор данных, расширяя его до огромных симуляций, таких как прогнозы погоды или климата, в то время как ИИ анализирует массу данных о мире и преобразует их в модель, в которую можно добавлять новые данные для ответа на вопросы, сообщается на ресурсе The Next Platform.

HPC и ИИ имеют разные потребности в вычислительных ресурсах, памяти и пропускной способности на разных этапах обработки приложений. Но в конечном итоге как при HPC, так и при обучении ИИ компании стремятся объединить множество узлов в единую систему для выполнения больших объёмов работы, которые невозможно выполнить иначе.

 Источник изображений: Hyperion Research

Источник изображений: Hyperion Research

Для получения «реальных» данных о рынке HPC необходимо добавить к расходам на традиционные платформы ModSim (моделирование и симуляция) средства, потраченные на применение технологий генеративного ИИ, традиционное обучение и инференс ИИ в ЦОД. Исходя из этого, Hyperion Research значительно пересмотрела оценку рынка, учтя продажи серверов ИИ, которые ранее не включались в расчёты, в том числе решения компаний NVIDIA, Supermicro и других.

В обновлённом прогнозе рынка HPC, представленном Hyperion Research в минувший вторник, расходы на серверы значительно выросли благодаря добавлению «нетрадиционных поставщиков». В 2021 году было продано серверов в объединённом секторе HPC/ИИ на $1,34 млрд, в 2022 году расходы на их покупку составили $3,44 млрд, а в 2023 году, благодаря буму на генеративный ИИ, они подскочили до $5,78 млрд. Hyperion Research ожидает, что эти производители заработают на серверах $7,46 млрд в 2024 году, и их доходы почти удвоятся к 2028 году, достигнув $14,97 млрд.

Историческая часть рынка серверов HPC/ИИ (согласно прежней методике), показанная синим цветом на диаграмме, как ожидается, составит $17,93 млрд в этом году и вырастет до $26,81 млрд к 2028 году. Объединённый рынок HPC/ИИ с учётом нового подхода составит в этом году $25,39 млрд и будет расти ежегодно на 15 %, достигнув $41,78 млрд к 2028 году.

Как отметили в Hyperion Research, теперь не все расходы на вычисления HPC и ИИ осуществляются локально (on-premise). Большая часть ИТ-бюджета на рабочие нагрузки HPC и ИИ переносится в облако.

Hyperion подсчитала, что приложения HPC и ИИ, работающие в облаке, в совокупности «потребили» $7,18 млрд виртуальных серверных мощностей в 2023 году и что эти цифры вырастут на 21,2 % до $8,71 млрд в 2024 году. К 2028 году расходы на вычислительные мощности HPC и ИИ в облаке составят $15,11 млрд, а совокупные годовые темпы роста с 2023 по 2028 год составят 16,1 %.

Помимо затрат на вычисления, бюджет HPC и ИИ включает расходы на хранение, ПО и сервисы. Hyperion ожидает, что в 2024 году общие расходы на HPC и ИИ вырастут на 22,4 %, с $42,4 млрд до $51,9 млрд. При совокупном годовом темпе роста в 15 % в период с 2023 по 2028 год все затраты на HPC и ИИ составят к 2028 году $85,5 млрд, что в два раза превышает показатель нынешнего года.

Согласно данным Hyperion, в 2021 году в Китае было установлено две экзафлопсные системы стоимостью $350 млн каждая. Также по одной системе с такой же стоимостью было установлено в 2023 году и нынешнем году. Hyperion ожидает, что в 2025 году Китай установит ещё одну или две экзафлопсные системы с оценочной стоимостью $300 млн за штуку и ещё две с такой же стоимостью в 2026 году.

Общая стоимость девяти экзафлопсных систем составит около $2,95 млрд — примерно столько стартап xAI, курируемый Илоном Маском (Elon Musk), израсходовал на создание кластера Colossus из 100 000 ускорителей NVIDIA H100.

В Японии до сих пор нет суперкомпьютера эксафлопсного класса (речь об FP64-производительности), и она получит свой первый такой суперкомпьютер стоимостью $200 млн в 2026 году. В 2027 и 2028 годах, как ожидает Hyperion, Япония построит две или три такие суперкомпьютерные системы стоимостью около $150 млн за единицу, потратив в общей сложности $300–450 млн.

В Европе есть несколько преэкзафлопсных систем, и в 2025 году она получит две экзафлопсные системы по оценочной стоимости $350 млн каждая, а в 2026 году здесь появится ещё две или три системы стоимостью около $325 млн. Также следует ожидать строительство двух или трёх машин в 2027 году стоимостью $300 млн каждая и двух или трёх в 2028 году стоимостью $275 млн каждая. То есть в предстоящие несколько лет в Европе будет построено одиннадцать экзафлопсных суперкомпьютеров общей стоимостью $3,4 млрд.

 Источник изображения: LLNL

Источник изображения: LLNL

В США установили одну экзафлопсную систему в 2022 году (Frontier в Ок-Риджской национальной лаборатории, ORNL) и две — в 2024 году (Aurora в Аргоннской национальной лаборатории и El Capitan в Ливерморской национальной лаборатории им. Э. Лоуренса). По оценкам The Next Platform, за последние годы Соединённые Штаты потратили $1,4 млрд на установку трёх экзафлопсных машин.

Согласно прогнозу Hyperion Research, в Соединённых Штатах в 2025 году установят две экзафлопсные системы стоимостью около $600 млн каждая, в 2026 году — одну или две стоимостью $325 млн каждая и одну или две стоимостью $275 млн каждая в 2027 и 2028 годах. В общей сложности будет потрачено $4,35 млрд на одиннадцать экзафлопсных систем.

Постоянный URL: http://servernews.ru/1114495
24.11.2024 [09:54], Сергей Карасёв

AIC и ScaleFlux представили JBOF-массив на основе NVIDIA BlueField-3

Компании AIC и ScaleFlux анонсировали систему F2026 Inference AI для ресурсоёмких приложений ИИ с интенсивным использованием данных. Решение выполнено в форм-факторе 2U. В оснащение входят два DPU NVIDIA BlueField-3, которые могут работать на скорости до 400 Гбит/с. Эти изделия способны ускорять различные сетевые функции, а также операции, связанные с передачей и обработкой больших массивов информации.

Во фронтальной части F2026 Inference AI расположены 26 отсеков для высокопроизводительных вычислительных SSD семейства ScaleFlux CSD5000 (U.2). Накопители с интерфейсом PCIe 5.0 (NVMe 2.0b) имеют вместимость 3,84, 7,68, 15,36, 30,72, 61,44 и 122,88 Тбайт, а с учётом компрессии эффективная ёмкость может достигать приблизительно 256 Тбайт. Реализована поддержка TCG Opal 2.02 и шифрования AES-256, NVMe Thin Provisioned Namespaces Virtualization (48PF/32VF), ZNS, FDP.

Платформа F2026 Inference AI представляет собой JBOF-массив, способный на сегодняшний день хранить 1,6 Пбайт информации (эффективный объём). В следующем году показатель будет доведён до 6,6 Пбайт. Утверждается, что сочетание BlueField-3 и энергоэффективной технологии хранения ScaleFlux помогает минимизировать энергопотребление, а также повысить долговечность и надёжность.

Результаты проведённого тестирования F2026 Inference AI демонстрируют пропускную способность при чтении до 59,49 Гбайт/с, при записи — более 74,52 Гбайт/с. Благодаря объединению средств хранения, сетевых функций и инструментов безопасности в одну систему достигается снижение эксплуатационных расходов, что позволяет оптимизировать совокупную стоимость владения (TCO).

 Источник изображения: AIC

Источник изображения: AIC

Новинка является лишь одной из вариаций решений на базе F2026. Платформа, в частности, поддерживает работу других DPU, включая Kalray 200 и Chelsio T7. Также упоминается вариант шасси на 32 накопителя EDSFF E3.S/E3.L.

Постоянный URL: http://servernews.ru/1114474
23.11.2024 [15:57], Сергей Карасёв

Microsoft и Meta✴ представили дизайн ИИ-стойки с раздельными шкафами для питания и IT-оборудования

Корпорация Microsoft в сотрудничестве с Meta представила дизайн серверной стойки нового поколения для дата-центров, ориентированных на задачи ИИ. Спецификации системы, получившей название Mt. Diablo, предоставляются участникам проекта Open Compute Project (OCP).

Отмечается, что инфраструктура ЦОД постоянно эволюционирует, а наиболее значительное влияние на неё оказывает стремительное внедрение ИИ. Тогда как традиционные стойки с вычислительным оборудованием и средствами хранения данных имеют мощность максимум до 20 кВт, при размещении современных ИИ-ускорителей этот показатель исчисляется сотнями киловатт. В результате при развёртывании дата-центров могут возникать различные сложности.

Идея Mt. Diablo заключается в разделении стойки на независимые шкафы для компонентов подсистемы питания и вычислительного оборудования. То есть, речь идёт о дезагрегированной архитектуре, позволяющей гибко регулировать мощность в соответствии с меняющимися требованиями.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Одним из ключевых преимуществ нового подхода является оптимизация пространства. Утверждается, что в каждой серверной стойке можно размещать на 35 % больше ИИ-ускорителей по сравнению с традиционным дизайном. Ещё одним достоинством названа масштабируемость: конфигурацию стойки питания можно изменять в соответствии с растущими потребностями. Плюс к этому модульная конструкция позволяет реализовывать несколько проектов одновременно.

Отмечается, что в современных OCP-системах уже используется единая шина питания постоянного тока с напряжением 48 В. В случае с новым дизайном возможен переход на архитектуру 400 В DC. Это открывает путь для создания более мощных и эффективных систем ИИ. Однако для внедрения стандарта 400 В потребуется общеотраслевая стандартизация. В индивидуальных проектах — например, суперкомпьютерах — для питания узлов уже используется шина HVDC.

Постоянный URL: http://servernews.ru/1114464
23.11.2024 [15:35], Сергей Карасёв

Eviden создаст для Финляндии ИИ-суперкомпьютер Roihu производительностью 49 Пфлопс

Компания Eviden (дочерняя структура Atos) объявила о заключении соглашения с Финским научным IT-центром CSC о создании нового национального суперкомпьютера для задач ИИ. Система под названием Roihu, как ожидается, утроит вычислительную мощность существующих комплексов Puhti и Mahti.

Суперкомпьютер Puhti общего назначения, запущенный в 2019 году, построен на платформе Atos BullSequana X400 (X1000). В общей сложности используются 682 узла CPU на процессорах Intel Xeon Cascade Lake-SP с пиковой FP64-производительностью 1,8 Пфлопс. Кроме того, применены 80 узлов GPU, каждый из которых несёт на борту четыре ускорителя NVIDIA V100: быстродействие этой секции — до 2,7 Пфлопс. Основной интерконнект — InfiniBand HDR100.

В свою очередь, система Mahti (на изображении), введённая в эксплуатацию в 2020-м, основана на платформе Atos BullSequana XH2000. Суперкомпьютер насчитывает 1404 узла CPU и 24 узла GPU с теоретической пиковой FP64-производительностью 7,5 Пфлос и 2,0 Пфлопс соответственно. Все узлы содержат по два чипа AMD Rome 7H12, тогда как GPU-серверы комплектуются четырьмя ускорителями NVIDIA Ampere A100.

 Источник изображения: CSC

Источник изображения: CSC

В основу нового суперкомпьютера Roihu ляжет гибридная платформа BullSequana XH3000, которая позволяет объединять в рамках одного кластера чипы AMD, Intel и NVIDIA. Теоретическая пиковая производительность заявлена на уровне 49 Пфлопс (точность вычислений не уточняется). Прочие технические характеристики проектируемой машины пока не раскрываются.

Стоимость контакта по созданию Roihu оценивается в €60 млн. Систему планируется использовать для широкого спектра задач, включая анализ аудио- и видеозаписей, ресурсоёмкие приложения ИИ в различных областях и традиционные нагрузки, такие как гидродинамика и моделирование климата. Кроме того, мощности суперкомпьютера будут применяться в образовательных целях.

Постоянный URL: http://servernews.ru/1114459
23.11.2024 [12:26], Сергей Карасёв

«Аквариус» и «Группа Астра» представили ПАК облачной инфраструктуры Aquarius AIC

Компания «Аквариус» и «Группа Астра» объявили о разработке российского программно-аппаратного комплекса (ПАК) облачной инфраструктуры Aquarius AIC. Решение, как ожидается, заинтересует предприятия из различных отраслей, включая электроэнергетику, нефтегазовый сектор, промышленное производство и пр.

По заявлениям разработчиков, Aquarius AIC — это высокоадаптивное и безопасное облачное решение, предназначенное для создания программно-определяемого инфраструктурного слоя. Все аппаратные компоненты для платформы предоставляются «Аквариусом»: в их число входят серверы, СХД и коммутационное оборудование.

Программная часть базируется на платформе Astra Infrastructure Cloud (AIC), разработанной «Группой Астра». Она предназначена для построения защищённого частного облака с возможностью предоставления различных услуг. Среди её ключевых характеристик названы:

  • Безопасность — сертифицированные средства защиты информации Astra Linux;
  • Модульность — гибкая настройка и возможность интеграции в существующую инфраструктуру;
  • Отказоустойчивость и катастрофоустойчивость — возможность работы в нескольких ЦОД;
  • Автоматизированная установка — готовый инсталлятор для развёртывания всех компонентов;
  • Масштабируемость — быстрое расширение ресурсов облака;
  • Аттестация — построение облака для критической информационной инфраструктуры;
  • Контроль и учет потребляемых ресурсов — тарификация и биллинг на портале самообслуживания;
  • Мониторинг — контроль состояния и производительности.
 Источник изображения: «Аквариус»

Источник изображения: «Аквариус»

Отмечается, что на основе ПАК Aquarius AIC может предоставляться полный набор сервисов: аренда вычислительных ресурсов (IaaS), готовая платформа с определёнными настройками под различные задачи (PaaS), полностью готовое решение (SaaS) для обеспечения соответствия корпоративным стандартам как для крупных предприятий, так и для малого и среднего бизнеса. ПАК успешно протестирован в лаборатории Центра разработок «Аквариус» командами разработчиков, архитекторов и инженеров обеих компаний. В частности, проведены функциональные и нагрузочные испытания.

Нужно отметить, что «Аквариус» и «Группа Астра» предлагают и другие совместные решения. Ранее компании представили ПАК системы резервного копирования AQ_ServRuBackup. Кроме того, «Аквариус» и «Тантор Лабс» (входит в «Группу Астра») развивают ПАК Tantor XData, предназначенный для обслуживания СУБД Tantor.

Постоянный URL: http://servernews.ru/1114454
23.11.2024 [10:43], Сергей Карасёв

«Сбер» приобрёл долю в IT-компании «Аквариус»

Структура «СберИнвест» («Сбербанк Инвестиции»), входящая в блок корпоративно-инвестиционного бизнеса «Сбера», по сообщению РБК, заключила сделку по приобретению 12-процентной доли в компании «Аквариус» — российском разработчике и производителе компьютерной техники и IT-решений.

Как рассказали осведомленные источники, обсуждение сделки велось достаточно давно. Закрыта она была в I половине 2024 года, но известно об этом стало только сейчас. Говорится, что привлечённые средства направлены на финансирование инвестиционной программы «Аквариуса».

Участники рынка считают, что сделка выгодна обеим сторонам. В частности, для «Сбера» она является стратегической инвестицией. Благодаря участию в структуре «Аквариуса» кредитная организация сможет ускорить инициативы по импортозамещению и расширить стек отечественных технологий. У «Сбера» существует потребность в российском оборудовании для выполнения требований указа президента для владельцев критической информационной инфраструктуры (КИИ).

 Источник изображения: «Аквариус»

Источник изображения: «Аквариус»

В свою очередь, «Аквариус» получит дополнительные средства, которые могут быть направлены на установку нового производственного оборудования, закупку компонентов и пр. Кроме того, как ожидается, «Сбер» выступит одним из банков — организаторов первичного публичного размещения акций «Аквариуса» на бирже (IPO). Осуществить данную процедуру IT-производитель рассчитывает в 2025 году.

Постоянный URL: http://servernews.ru/1114460
22.11.2024 [11:55], Руслан Авдеев

Одна из структур Минпромторга закупит ИИ-серверы на 665 млн рублей

Подведомственный Минпромторгу ФГАУ «Федеральный центр прикладного развития искусственного интеллекта» (ФЦПРИИ) объявил аукцион на закупку серверного и телеком-оборудования для обучения ИИ-моделей на сумму 665 млн руб., сообщают «Ведомости». Информация опубликована 11 ноября на портале госзакупок.

Техзадание ФЦПРИИ предусматривает закупку восьми серверов на базе ИИ-ускорителей на 412,97 млн руб., двух вариантов систем хранения данных на 87,89 млн руб. и 89,06 млн руб. и классических серверов, но конкретные разработчики оборудования в документации к аукциону не указаны. В Минпромторге и ФЦПРИИ отказались от комментариев. По мнению экспертов, заказчик намерен сформировать высокопроизводительный вычислительный кластер как для обучения ИИ, так и для выполнения научно-технических вычислений большой сложности.

 Источник изображения: Astemir Almov/unsplash.com

Источник изображения: Astemir Almov/unsplash.com

Отраслевые эксперты подчёркивают, что в России ускорителей для ИИ не производят, поэтому необходимо закупать соответствующие системы на стороне. По данным одного из источников «Ведомостей», на уровне предположений речь, вероятно, идёт о покупке серверов NVIDIA HGX H200 для обучения больших языковых моделей (LLM) — о закупках такого оборудования косвенно свидетельствует цена более 50 млн руб. за штуку. При этом производителями собственно серверов могут выступать как зарубежные, так и российские компании.

Над серверами для ИИ работают многие российские компании. В апреле сообщалось, что в реестре радиоэлектронной продукции Минпромторга появился первый отечественный сервер для работы ИИ с поддержкой подключения нескольких ускорителей — Delta Sprut от ООО «Дельта компьютерс» (Delta Computers), позволяющий подключить до 16 ускорителей.

Постоянный URL: http://servernews.ru/1114417
22.11.2024 [10:15], Сергей Карасёв

Oracle объявила о доступности облачного ИИ-суперкомпьютера из 65 тыс. NVIDIA H200

Корпорация Oracle сообщила о доступности облачного суперкластера с ускорителями NVIDIA H200, предназначенного для ресурсоёмких ИИ-нагрузок, включая обучение больших языковых моделей (LLM). Арендовать мощности системы можно по цене от $10 в час в расчёте на GPU.

Кластер масштабируется до 65 536 ускорителей. В максимальной конфигурации теоретическое пиковое быстродействие достигает 260 Эфлопс на операциях FP8, что более чем в четыре раза превышает показатели систем предыдущего поколения. Утверждается, что на сегодняшний день это самый высокопроизводительный облачный ИИ-суперкомпьютер, доступный в облаке. Сейчас компания готовится к созданию облачного кластера из 131 тыс. NVIDIA B200.

Новые инстансы получили обозначение BM.GPU.H200.8. Каждая виртуальная машина типа Bare Metal (без гипервизора) содержит восемь изделий NVIDIA H200 (141 Гбайт памяти HBM3e), объединённых посредством NVIDIA NVLink. Задействованы два процессора Intel Xeon Platinum 8480+ поколения Sapphire Rapids (56C/112T; до 3,8 ГГц; 350 Вт). Объём системной памяти DDR5 составляет 3 Тбайт. В состав локального хранилища входят восемь NVMe SSD вместимостью 3,84 Тбайт каждый.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Кластер использует кастомную RoCE-сеть на базе NVIDIA ConnectX-7 с суммарной пропускной способностью 3200 Гбит/с (восемь каналов по 400 Гбит/с) на узел. Инстансы включают frontend-сеть с пропускной способностью 200 Гбит/с. По данным Oracle, каждый инстанс в суперкластере содержит на 76 % больше памяти HBM по сравнению с виртуальными машинами на основе NVIDIA H100, а пропускная способность памяти увеличена на 40 %. Таким образом, производительность инференса выросла в 1,9 раза.

Постоянный URL: http://servernews.ru/1114406

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

Система Orphus