Материалы по тегу: hardware
15.09.2025 [11:44], Сергей Карасёв
SK hynix завершила разработку памяти HBM4 для ИИ-системКомпания SK hynix объявила о том, что она первой среди участников отрасли завершила разработку памяти с высокой пропускной способностью HBM4 для ИИ-систем. В настоящее время готовится организация массового производства таких изделий. HBM4 — это шестое поколение памяти данного типа после оригинальных решений HBM, а также HBM2, HBM2E, HBM3 и HBM3E. Ожидается, что чипы HBM4 будут применяться в продуктах следующего поколения AMD, Broadcom, NVIDIA и др. Стеки памяти HBM4 от SK hynix оснащены 2048-бит IO-интерфейсом: таким образом, разрядность интерфейса HBM удвоилась впервые с 2015 года. Заявленная скорость передачи данных превышает 10 Гбит/с, что на 25 % превосходит значение в 8 Гбит/с, определённое официальным стандартом JEDEC. Пропускная способность HBM4 увеличилась вдвое по сравнению с предыдущим поколением НВМ, тогда как энергоэффективность повысилась на 40 %. ![]() Источник изображения: SK hynix При изготовлении чипов HBM4 компания SK hynix будет применять 10-нм технологию пятого поколения (1bnm) и методику Advanced Mass Reflow Molded Underfill (MR-MUF). Последняя представляет собой способ объединения нескольких чипов памяти на одной подложке посредством спайки: сразу после этого пространство между слоями DRAM, базовым кристаллом и подложкой заполняется формовочным материалом для фиксации и защиты структуры. Технология Advanced MR-MUF позволяет выдерживать высоту HBM-стеков в пределах спецификации и улучшать теплоотвод энергоёмких модулей памяти. SK hynix не раскрывает ни количество слоёв DRAM в своих изделиях HBM4, ни их ёмкость. Как отмечает ресурс Tom's Hardware, по всей видимости, речь идёт об 12-Hi объёмом 36 Гбайт, которые будут использоваться в ускорителях NVIDIA Rubin. По заявлениям SK hynix, внедрение HBM4 позволит увеличить производительность ИИ-ускорителей на 69 % по сравнению с нынешними решениями. Это поможет устранить узкие места в обработке информации в ИИ ЦОД.
15.09.2025 [10:20], Владимир Мироненко
Oracle предоставит НАТО суверенное облако OCI
hardware
oracle
oracle cloud infrastructure
thales
конфиденциальность
миграция
нато
облако
цод
частное облако
Американская корпорация Oracle объявила о заключении контракта с Агентством связи и информации НАТО (NCIA), в рамках которого эта организация перенесет свои критически важные рабочие нагрузки в облачную инфраструктуру Oracle Cloud Infrastructure (OCI). Процесс интеграции OCI в существующую систему НАТО будет контролироваться двумя подразделениями итальянской ИТ-компании Reply — Red Reply и Shield Reply, которые специализируются на системной интеграции и облачных оборонных сервисах соответственно. Как сообщил Филиппо Риццанте (Filippo Rizzante), технический директор Reply, Red Reply и Shield Reply предоставят полный комплекс консалтинговых и управляемых услуг — от поиска и безопасного проектирования до миграции трёх устаревших ЦОД в OCI. Французская компания Thales, специализирующаяся на обороне и кибербезопасности, будет наряду с Red Reply и Shield Reply содействовать интеграции OCI в информационную систему НАТО, гарантируя сквозную безопасность данных и координируя связанную с этим миграцию рабочих нагрузок, а бельгийская телекоммуникационная компания Proximus обеспечит расширенные сетевые возможности. «OCI поможет NCIA управлять, анализировать и защищать данные, а также предоставит больше контроля и уверенности в том, где хранятся данные и выполняются рабочие нагрузки», — заявил Ричард Смит (Richard Smith), исполнительный вице-президент по технологиям и генеральный менеджер Oracle EMEA. Как сообщает Data Center Dynamics, НАТО располагает пятью кампусами и 30 пунктами прямой поддержки по всей Европе и Северной Америке. Основные пункты расположены в Брюсселе, Брен-л'Аллё и Монсе (Бельгия), Оэйраше (Португалия) и Гааге (Нидерланды), а пункты прямой поддержки включают подразделения поддержки CIS (CSU), логистические центры и наземные станции спутниковой связи, которые обеспечивают работу сетей НАТО, проведение операций по обслуживанию, учений и ИТ-инфраструктуры.
15.09.2025 [09:24], Владимир Мироненко
Считавшаяся неудачной сделка по покупке Sun в итоге сделала Oracle облачным гигантом
exadata
hardware
oracle
oracle cloud infrastructure
sun
гиперскейлер
ии
интерконнект
облако
сделка
цод
Когда в апреле 2009 года Oracle, считавшаяся на тот момент третьей в мире по величине софтверной компанией, объявила о покупке Sun Microsystems, все расценили сделку как неудачную. Покупка обошлась в $7,4 млрд ($5,6 млрд с учётом собственных средств и долгов Sun), а решение главы Oracle Ларри Эллисона (Larry Ellison) вызвало лишь один вопрос: зачем компании, занимающейся СУБД и корпоративным ПО, покупать пришедшего в упадок производителя серверов и ПО, принимая на себя бремя расходов по ведению аппаратного бизнеса? На то, чтобы ответ на него стал очевидным, ушло почти 15 лет, приводит SiliconANGLE слова аналитика Тони Баера (Tony Baer). Многие считали, что покупка Sun подорвёт финансовое положение Oracle. Основополагающий бизнес Sun по выпуску SPARC-серверов с ОС Solaris был ослаблен из-за Linux и x86 — мало кто хотел платить за наследника UNIX и дорогое «железо», так что на момент сделки Sun ежемесячно теряла $100 млн. В действительности же всё оказалось не так уж плохо. В следующем после закрытия сделки финансовом году общая выручка Oracle (по GAAP) выросла на 33 %, в основном за счёт ПО, в то время как выручка от аппаратного бизнеса снизилась всего лишь на 6 %. Вместе с тем количество развёрнутых ПАК Oracle Exadata (Oracle Database Machine) по всему миру превысило 1 тыс. Предположительно, выручка от Exadata была учтена в разделе ПО. Если ранее Exadata использовала оборудование HP, то после приобретения Sun компания больше не зависела от сторонних производителей и вскоре её слоганом для Exadata стало «инженерные системы». ![]() Источник изображений: Oracle Распространённое мнение сводилось к тому, что, купив Sun, Oracle выходит на серверный рынок. На самом деле, приобретение Sun привнесло в Oracle системный подход, который стал ключом не только к её растущему бизнесу по выпуску ПАК Exadata, но и к будущему облачному бизнесу, о котором компания даже не помышляла в 2009 году, отметил SiliconANGLE. Мало кто мог предсказать, что Oracle со временем станет крупным облачным провайдером. Даже сам Эллисон поначалу воспринимал эту идею скептически, назвав в 2008 году облачный бизнес «бессмыслицей». Тем не менее, в 2016 году компания запустила Oracle Cloud Infrastructure (OCI) и… всего через два года решила полностью поменять облачную архитектуру, поняв, что текущая ничем не отличается от AWS, Microsoft Azure или Google Cloud. В частности, для повышения безопасности была обеспечена полная изоляция кода и данных клиентов, а для повышения производительности и масштабируемости была упрощена топология и внедрена поддержка RDMA. Кроме того, Oracle не только опиралась на опыт Sun, но и агрессивно переманивала специалистов AWS и Azure. И хотя сейчас практически каждый гиперскейлер использует ускорители NVIDIA, только OCI может объединить их в суперкластеры из 131 тыс. чипов, а с недавних пор и ускорители AMD. Облачный сервис Oracle Exadata также выиграл: учитывая спрос клиентов и тот факт, что ни один гиперскейлер не может повторить оптимизацию RDMA-интерконнекта, которую сделала Oracle, инфраструктура Exadata теперь размещена как нативный сервис у всех трёх гиперскейлеров в их же ЦОД. За последний год выручка от баз данных MultiCloud выросла более чем в 15 раз. 10 сентября акции Oracle показали рекордный за 26 лет рост, и не столько из-за увеличения выручки, которая оказалась ниже ожиданий Уолл-стрит, сколько благодаря развитию её облачной инфраструктуры. Объём оставшихся обязательств по контрактам (RPO) компании вырос год к году на 359 % до $455 млрд. В тот же день было объявлено о сделке с Open AI на сумму в $300 млрд, вместе с которой Oracle участвует в проекте Stargate. И хотя RPO Oracle намного выше показателей её конкурентов среди гиперскейлеров, она значительно уступает им по размерам дохода, поскольку компании приходится направлять значительно большую часть средств на капитальные вложения. Существуют опасения, что ажиотаж вокруг ИИ может повторить ситуацию с пузырём доткомов. Oracle хеджирует свои риски, не покупая здания или недвижимость для облачных регионов OCI. Оборудование и инфраструктура закупаются только по факту поступления заказов, но большая ставка на одного клиента — Open AI — ставит под сомнение устойчивость её позиций, пишет SiliconANGLE. Кроме того, есть вероятность, что и заказы остальных клиентов будут реализованы в полном объёме. Тем не менее, 15 лет назад вряд ли кто бы подумал, что приобретение Sun Microsystems преобразит Oracle. Хотя в то время серверный бизнес Sun переживал упадок, у неё был системный опыт, который изменил ход событий. И в долгосрочной перспективе именно опыт Sun запустил перемены в основном бизнесе Oracle, превратив поставщика корпоративного ПО в успешного провайдера облачной инфраструктуры.
15.09.2025 [08:53], Сергей Карасёв
Biostar выпустила индустриальные компьютеры EdgeComp MS-NANX 8G/16G на базе NVIDIA Jetson Orin NXКомпания Biostar анонсировала компьютеры небольшого форм-фактора EdgeComp MS-NANX 8G/16G, предназначенные для выполнения ИИ-задач на периферии. Устройства подходят для таких приложений, как удалённый мониторинг оборудования, предиктивное обслуживание, визуальный контроль, промышленная автоматизация, системы умного города и пр. Основой компьютеров служит модуль NVIDIA Jetson Orin NX в вариантах с 8 и 16 Гбайт памяти LPDDR5. В первом случае задействованы шесть CPU-ядер Arm Cortex-A78AE, во втором — восемь. Кроме того, в состав обоих изделий входит графический блок на архитектуре NVIDIA Ampere с 1024 ядрами. ИИ-производительность на операциях INT8 (Sparse) достигает соответственно 70 и 100 TOPS. Устройства наделены слотом M.2 Key-E 2230 для адаптера Wi-Fi/Bluetooth, коннектором M.2 Key-B 3042/3052 для сотового модема 4G/5G (плюс разъём Nano SIM) и слотом M.2 Key-M 2242/2260/2280 для NVMe SSD. Присутствуют сетевые контроллеры 1GbE и 2.5GbE с опциональной поддержкой PoE. Имеются два гнезда RJ45 для сетевых кабелей, два последовательных порта (RS232/CAN и RS232/422/485), четыре порта USB 3.2 Type-A и комбинированное аудиогнездо на 3,5 мм. Компьютеры заключены в прочный корпус, ребристая верхняя часть которого выполняет функции радиатора для рассеяния тепла (применяется пассивное охлаждение). Габариты составляют 160 × 102 × 80 мм. Диапазон рабочих температур простирается от -20 до +50 °C. Питание 12–20 В подаётся через DC-разъём или 2-контактный терминальный разъём. Подчёркивается, что устройства спроектированы специально для интеграции в промышленные, коммерческие и государственные среды. Заявлена совместимость с Linux (NVIDIA Jetpack 6.2).
14.09.2025 [12:55], Сергей Карасёв
Bain Capital продала китайские ЦОД ChinData за $4 млрдАмериканская частная инвестиционная компания Bain Capital объявила о том, что её портфельная фирма WinTrix DC Group, специализирующаяся на дата-центрах, заключила соглашение о продаже 100 % доли в китайском подразделении ChinData. Сумма сделки составляет около $4 млрд. Крупнейшим клиентом компании является ByteDance, владеющая TikTok. Покупателем ЦОД-активов Bain Capital в КНР выступает консорциум во главе с китайской производственно-строительной компанией Shenzhen Dongyangguang Industry (является материнской структурой фирмы Guangdong HEC Technology Holding, которая считалась главным претендентом на приобретение бизнеса ChinData). Кроме того, в состав консорциума вошли институциональные инвесторы, включая страховые компании и китайские государственные фонды. По словам Bain Capital, заключенное соглашение является крупнейшей M&A-сделкой в истории китайской индустрии дата-центров. Это отражает интерес местных инвесторов к масштабируемой цифровой инфраструктуре нового поколения в Китае. ChinData управляет почти двумя десятками ЦОД в Китае, Малайзии и Таиланде, при этом оператором объектов за пределами КНР является дочернее предприятие Bridge Data Centers. ChinData была основана в 2015 году. Bain Capital приобрела её в 2019-м у Wangsu Science & Technology Co. и объединила с Bridge Data Centres, которая уже входила в портфель Bain. Объединённая структура вышла на биржу в 2020 году, но позднее Bain снова приватизировала ChinData в результате сделки по слиянию с дочерними предприятиями BCPE Chivalry Bidco Limited и BCPE Chivalry Merger Sub Limited. Поиском покупателя на активы ChinData компания Bain Capital занималась с марта 2024 года. Ожидается, что сделка поможет Guangdong HEC Technology Holding расширить бизнес в сфере дата-центров и укрепить положение на китайском рынке. Представители этой компании заявляют, что её опыт в области материалов для жидкостного охлаждения и технологий суперконденсаторов позволит удовлетворить потребности в высокоплотных вычислениях для ИИ.
13.09.2025 [14:01], Сергей Карасёв
Облачные Mac'и с Nitro: AWS запустила инстансы EC2 M4 Mac и M4 Pro MacОблачная платформа AWS анонсировала инстансы EC2 M4 Mac и EC2 M4 Pro Mac на основе компьютеров небольшого форм-фактора Apple Mac Mini с фирменными процессорами семейства M4. Новые экземпляры приходят на смену EC2 M2 Mac, которые были доступны с сентября 2023 года. Инстансы EC2 M4 Mac базируются на модификации Mac Mini с процессором M4. Этот чип объединяет 10 ядер CPU (четыре производительных и шесть энергоэффективных), 10 ядер GPU и 16-ядерный движок Neural Engine. Объём унифицированной памяти составляет 24 Гбайт, а её пропускная способность достигает 120 Гбайт/с. Утверждается, что на задачах сборки приложений экземпляры EC2 M4 Mac обеспечивают на 20 % более высокую производительность по сравнению с EC2 M2 Mac. В свою очередь, инстансы EC2 M4 Pro Mac используют мини-компьютеры Mac Mini с процессором M4 Pro, который содержит 12 ядер CPU (восемь производительных и четыре энергоэффективных), 16 ядер GPU и 16-ядерный движок Neural Engine. В оснащение входят 48 Гбайт унифицированной памяти с пропускной способностью до 273 Гбайт/с. По сравнению с EC2 M2 Pro Mac быстродействие на операциях сборки приложений увеличилось на 15 %. ![]() Источник изображения: Apple Инстансы EC2 M4 Mac и EC2 M4 Pro Mac предполагают наличие локального хранилища вместимостью 2 Тбайт. Применяется система AWS Nitro, которая переносит функции виртуализации, хранения и сетевые операции на выделенное оборудование и ПО для повышения производительности и улучшения безопасности. Благодаря подключению посредством интерфейса Thunderbolt обеспечивается пропускная способность VPC (Virtual Private Cloud) до 10 Гбит/ с и пропускная способность EBS (Elastic Block Store) до 8 Гбит/с. Новые экземпляры совместимы с macOS Sonoma 15.6 и выше. Говорится о простоте интеграции с другими сервисами AWS. Инстансы EC2 M4 Mac и EC2 M4 Pro Mac уже доступны в регионах US East (Северная Вирджиния) и US West (Орегон), а в перспективе география охвата будет расширяться.
13.09.2025 [13:54], Сергей Карасёв
Затраты на строительство дата-центров в США бьют рекордыИсследование, проведённое специалистами Института Банка Америки (Bank of America Institute), говорит о том, что затраты на строительство дата-центров в США в июне нынешнего года достигли исторического максимума, составив около $40 млрд. Это на 30 % больше по сравнению с предыдущим годом, когда расходы находились на уровне $30,8 млрд. Причём в июне 2024-го отмечался рост на 50 % в годовом исчислении. Отмечается, что стремительное увеличение затрат в области ЦОД обусловлено бумом в сфере генеративного ИИ и машинного обучения. Для оптимизации больших языковых моделей (LLM) и инференса требуются огромные вычислительные ресурсы, что побуждает гиперскейлеров вкладывать десятки миллиардов долларов в соответствующую инфраструктуру. В частности, Microsoft намерена инвестировать в 2025 финансовом году до $80 млрд в создание ЦОД для задач ИИ в глобальном масштабе: более половины от этой суммы придётся на объекты в США. В свою очередь, Amazon в 2025-м вложит в расширение инфраструктуры рекордные $118 млрд. Google планирует потратить на наращивание мощностей дата-центров для поддержки ИИ около $85 млрд. Meta✴ готова выделить «сотни миллиардов долларов» на мультигигаваттные ИИ ЦОД, только в этом году уйдёт до $72 млрд. Основным сдерживающим фактором является нехватка электроэнергии. Согласно прогнозам Goldman Sachs, быстрое развитие ИИ приведёт к тому, что к 2030 году потребление энергии дата-центрами увеличится более чем вдвое. С другой стороны, говорится в исследовании BofA, повышение энергопотребления в сегменте ЦОД не отражает всю картину. Аналитики утверждают, что к 2030-му основная часть ожидаемого роста спроса на электроэнергию в США будет обусловлена такими факторами, как распространение электромобилей, отопление, перенос промышленных предприятий в новые зоны и электрификация зданий.
13.09.2025 [13:43], Сергей Карасёв
Microsoft расширит вычислительные мощности для обучения собственных ИИ-моделейКорпорация Microsoft, по сообщению Bloomberg, намерена расширить свою вычислительную инфраструктуру для обучения собственных моделей ИИ, которые, как ожидается, смогут составить конкуренцию решениям OpenAI, Anthropic и других ведущих игроков соответствующего рынка. На общем собрании сотрудников Microsoft руководитель потребительского направления ИИ Мустафа Сулейман (Mustafa Suleyman) заявил, что корпорация сделает «значительные инвестиции» в собственные ИИ-кластеры. По его словам, для Microsoft важно иметь возможность быть самодостаточной в области ИИ, если того потребует рыночная ситуация. Вместе с тем, как подчёркивает Сулейман, Microsoft придерживается подхода, предполагающего создание собственных ИИ-продуктов при одновременном углублении связей с OpenAI и поддержании отношений с другими участниками отрасли. В частности, Microsoft и OpenAI останутся партнёрами как минимум до 2030 года. Это сотрудничество предполагает, что OpenAI продолжит использовать облачные сервисы Azure, тогда как Microsoft сохранит доступ к интеллектуальной собственности OpenAI, включая ИИ-модели. Впрочем, компании ещё могут пересмотреть договор. Сулейман, являющийся соучредителем Google DeepMind, присоединился к Microsoft в 2024 году. В прошлом месяце редмондская корпорация представила первые собственные ИИ-модели — MAI-Voice-1 и MAI-1-preview, которые были созданы под руководством Сулеймана. Их обучение проходило на 15 тыс. ускорителей NVIDIA H100. Подчёркивается, что конкуренты вроде Meta✴, Google и xAI для выполнения таких задач используют кластеры в 6–10 раз больше: это, по мнению Microsoft, говорит о высокой эффективности её ИИ-моделей. В целом, Microsoft в 2025 финансовом году намерена инвестировать около $80 млрд в создание дата-центров для ИИ-нагрузок. Кроме того, корпорация подписала пятилетнее соглашение стоимостью почти $20 млрд на использование вычислительной ИИ-инфраструктуры компании Nebius (бывшая Yandex N.V.).
12.09.2025 [23:30], Владимир Мироненко
Благодаря NVIDIA доля Arm на рынке серверных процессоров достигла 25 %Стремительный рост вычислительных мощностей ЦОД на фоне бума ИИ-технологий способствовал росту доходов не только производителей ускорителей и серверных CPU, но и компании Arm, чью архитектуру они используют в своих чипах, передаёт The Register. В январе Arm заявила о намерении занять 50 % рынка чипов для ЦОД к концу 2025 года Согласно исследованию Dell’Oro Group, во II квартале доля Arm-чипов на рынке серверных CPU составила 25 %, тогда как годом ранее она равнялась 15 %. Движущей силой роста стало внедрение суперускорителей NVIDIA GB200 NVL72 и GB300 NVL72, которые включают 36 Arm-процессоров Grace на базе архитектуры Neoverse V2 (Demeter) с интерфейсом NVLink-C2C. Заказы на поставку чипов NVIDIA расписаны на месяцы вперёд, что обеспечивает гарантированный источник доходов Arm наряду с ростом доли на рынке. Аналитик Dell’Oro Барон Фунг (Baron Fung) сообщил The Register, что ещё год назад рост Arm на рынке серверных процессоров обеспечивался практически исключительно за счёт кастомных CPU, таких как AWS Graviton. Но теперь выручка от продаж Grace сопоставима с доходами от облачных GPU. AWS использует кастомные процессоры на архитектуре Arm с 2018 года. А Microsoft и Google лишь в последние несколько лет начали всерьёз развивать свои Arm-процессорах Cobalt и Axion соответственно, отметил The Register. Рост доли Arm на рынке зависит от того, насколько больше разработчиков чипов выведет свои чипы на рынок серверных процессоров. NVIDIA сейчас работает над новым процессором на базе Arm с использованием кастомных ядер Vera. Qualcomm и Fujitsu также работают над серверными чипами. А появление NVIDIA NVLink Fusion может привести к созданию новых гибридных чипов. По данным Dell’Oro, рост рынка ИИ-технологий также привёл к росту рынка компонентов для серверов и СХД, составившему во II квартале 44 % в годовом исчислении. Продажи SmartNIC и DPU, которые зачастую тоже используют Arm-ядра, примерно удвоились по сравнению с прошлым годом на фоне перехода на Ethernet для вычислительных ИИ-кластеров. Поставки ASIC для обработки ИИ-нагрузок сейчас сопоставимы с объёмами поставок GPU, хотя GPU по-прежнему приносят большую часть доходов.
12.09.2025 [23:07], Владимир Мироненко
Intel Arc Pro впервые поучаствовали в бенчмарках MLPerf Inference, но в лидерах предсказуемо осталась NVIDIAMLCommons объявил результаты набора бенчмарков MLPerf Inference v5.1. Последний раунд демонстрирует, насколько быстро развивается инференс и соответствующие бенчмарки, пишет ресурс HPCwire. В этом раунде было рекордное количество заявок — 27. Представлены результаты сразу пяти новых ускорителей: AMD Instinct MI355X, Intel Arc Pro B60 48GB Turbo, NVIDIA GB300, NVIDIA RTX 4000 Ada 20GB, NVIDIA RTX Pro 6000 Blackwell Server Edition. Всего же количество результатов MLPerf перевалило за 90 тыс. результатов. В текущем раунде были представлены три новых бенчмарка: тест рассуждений на основе модели DeepSeek-R1, тест преобразования речи в текст на основе Whisper Large v3 и небольшой тест LLM на основе Llama 3.1 8B. Как отметил ресурс IEEE Spectrum, бенчмарк на основе модели Deepseek R1 671B (671 млрд параметров), более чем в 1,5 раза превышает самый крупный бенчмарк предыдущего раунда на основе Llama 3.1 405B. В модели Deepseek R1, ориентированной на рассуждения, большая часть вычислений выполняется во время инференса, что делает этот бенчмарк ещё более сложным. Что касается самого маленького бенчмарка, основанного на Llama 3.1 8B, то, как поясняют в MLCommons, в отрасли растёт спрос на рассуждения с малой задержкой и высокой точностью. SLM отвечают этим требованиям и являются отличным выбором для таких задач, как реферирование текста или периферийные приложения. В свою очередь бенчмарк преобразования голоса в текст, основанный на Whisper Large v3, был разработан в ответ на растущее количество голосовых приложений, будь то смарт-устройства или голосовые ИИ-интерфейсы. NVIDIA вновь возглавила рейтинг MLPerf Inference, на этот раз с архитектурой Blackwell Ultra, представленной платформой NVIDIA GB300 NVL72, которая установила рекорд, увеличив пропускную способность DeepSeek-R1 на 45 % по сравнению с предыдущими системами GB200 NVL72 (Blackwell). NVIDIA также продемонстрировала высокие результаты в бенчмарке Llama 3.1 405B, который имеет более жёсткие ограничения по задержке. NVIDIA применила дезагрегацию, разделив фазы работы с контекстом и собственно генерацию между разными ускорителями. Этот подход, поддерживаемый фреймворком Dynamo, обеспечил увеличение в 1,5 раза пропускной способности на один ускоритель по сравнению с традиционным обслуживанием на системах Blackwell и более чем в 5 раз по сравнению с системами на базе Hopper. NVIDIA назвала «дезагрегированное обслуживание» одним из ключевых факторов успеха, помимо аппаратных улучшений при переходе к Blackwell Ultra. Также свою роль сыграло использованием фирменного 4-бит формата NVFP4. «Мы можем обеспечить точность, сопоставимую с BF16», — сообщила компания, добавив, что при этом потребляется значительно меньше вычислительной мощности. Для работы с контекстом NVIDIA готовит соускоритель Rubin CPX. В более компактных бенчмарках решения NVIDIA также продемонстрировали рекордную пропускную способность. Компания сообщила о более чем 18 тыс. токенов/с на один ускоритель в бенчмарке Llama 3.1 8B в автономном режиме и 5667 токенов/с на один ускоритель в Whisper. Результаты были представлены в офлайн-, серверных и интерактивных сценариях, при этом NVIDIA сохранила лидерство в расчете на GPU во всех категориях. AMD представила результаты AMD Instinct MI355X только в «открытой» категории, где разрешены программные модификации модели. Ускоритель MI355X превзошёл в бенчмарке Llama 2 70B ускоритель MI325X в 2,7 раза по количеству токенов/с. В этом раунде AMD также впервые обнародовала результаты нескольких новых рабочих нагрузок, включая Llama 2 70B Interactive, MoE-модель Mixtral-8x7B и генератор изображений Stable Diffusion XL. В число «закрытых» заявок AMD входили системы на базе ускорителей AMD MI300X и MI325X. Более продвинутый MI325X показал результаты, схожие с показателями систем на базе NVIDIA H200 на Llama 2 70b, в комбинированном тесте MoE и тестах генерации изображений. Кроме того, компанией была представлена первая гибридная заявка, в которой ускорители AMD MI300X и MI325X использовались для одной и той же задачи инференса — бенчмарка на базе Llama 2 70b. Возможность распределения нагрузки между различными типами ускорителей — важный шаг, отметил IEEE Spectrum. В этом раунде впервые был представлен и ускоритель Intel Arc Pro. Для бенчмарков использовалась видеокарта MaxSun Intel Arc Pro B60 Dual 48G Turbo, состоящая из двух GPU с 48 Гбайт памяти, в составе платформы Project Battlematrix, которая может включать до восьми таких ускорителей. Система показала результаты на уровне NVIDIA L40S в небольшом тесте LLM и уступила ему в тесте Llama 2 70b. Следует также отметить, что в этом раунде, как и в предыдущем, участвовала Nebius (ранее Yandex N.V.). Компания отметила, что результаты, полученные на односерверных инсталляциях, подтверждают, что Nebius AI Cloud обеспечивает «высочайшие» показатели производительности для инференса базовых моделей, таких как Llama 2 70B и Llama 3.1 405B. В частности, Nebius AI Cloud установила новый рекорд производительности для NVIDIA GB200 NVL72. По сравнению с лучшими результатами предыдущего раунда, её однохостовая инсталляция показала прирост производительности на 6,7 % и 14,2 % при работе с Llama 3.1 405B в автономном и серверном режимах соответственно. «Эти два показателя также обеспечивают Nebius первое место среди других разработчиков MLPerf Inference v5.1 для этой модели в системах GB200», — сообщила компания. |
|