Материалы по тегу: ускоритель

17.04.2025 [13:31], Руслан Авдеев

Сначала NVIDIA, потом AMD: США не позволили продать в Китай ускорители Instinct на $800 млн

NVIDIA оказалась не единственным разработчиком чипов, который пострадает от новых торговых санкций, введённых в отношении Китая администрацией США. В минувшую среду AMD заявила, что ожидает «списания» $800 млн — около 16 % выручки серии Instinct за 2024 финансовый год, сообщает The Register. Причина — ограничения на экспорт, введённые США, которые блокируют поставки её ИИ-ускорителей Instinct MI308 в Китай и другие страны, вызывающие «обеспокоенность».

Как и в случае с NVIDIA, велика вероятность, что американские власти могут пересмотреть запреты, рассматривая партии поставок в индивидуальном порядке и выдавая экспортные лицензии для MI308 в Китай. При этом AMD отмечает в документе, поданном в Комиссию по ценным бумагам и биржам (SEC), что подать заявки на лицензии компания намерена, но нет никаких гарантий, что они будут одобрены в итоге. Пока же AMD в том же положении, что и NVIDIA, не успевшая распродать запасы ослабленных ускорителей H20 и теперь ожидающая изменения ситуации со складами, полными их запасов.

Хотя потенциальные убытки AMD выглядят весьма скромно в сравнении с $5,5 млрд, которые потеряет NVIDIA в результате запрета продаж H20 в Китай и некоторые другие страны без специального разрешения, для AMD в этом приятного всё равно мало. Бизнес рос хорошими темпами со времени дебюта ускорителей MI300X в конце 2023 года.

 Источник изображения: AMD

Источник изображения: AMD

Ранее AMD заявляла, что производительность MI300X до 32 % выше в сравнении с NVIDIA H100 в некоторых задачах. Как и NVIDIA, AMD рассчитывала разработать собственную версию ослабленного ускорителя для китайского рынка по аналогии c A800 и H800, а позже H20. Речь шла именно о серии MI308 — правда, о ней практически ничего не известно. Год назад говорилось, что некие урезанные версии Instinct MI309 оказались недостаточно слабы для экспорта в Китай. По-видимому, AMD в MI308 пришлось ещё сильнее снизить производительность и пропускную способность интерфейсов.

Хотя возможности NVIDIA и AMD вести дела с Китаем будут серьёзно ограничены в обозримом будущем, компании, возможно, снова смогут доработать существующие модели, дополнительно снизив производительность для обхода ограничений, введённых Министерством торговли США. Intel также готовила отдельную серию ИИ-ускорителей Habana Gaudi3 — к обычным HL-325L, HL-335 и HL-338 были добавлены урезанные HL-328 и HL-388. Впрочем, продажами Habana компания и так не может похвастаться.

Также не исключено, что AMD начнёт продвигать MI308 в качестве ускорителя для инференса в странах, куда продавать их по американским законам всё ещё можно. Это позволит хотя бы вернуть часть инвестиций. Нечто подобное произошло с NVIDIA A800. В Китай они не попали, но NVIDIA смогла продать их HP для установки в рабочии станции. Заинтересованность в A800 и H800 также выражала Индия, на которую на тот момент ограничения в основном не распространялись.

Постоянный URL: http://servernews.ru/1121420
17.04.2025 [00:10], Владимир Мироненко

Суперускоритель Huawei CloudMatrix 384 оказалася быстрее NVIDIA GB200 NVL72, но значительно прожорливее

Huawei анонсировала на конференции Huawei Cloud Ecosystem Conference 2025 собственный суперускоритель CloudMatrix 384, который позиционируется в качестве отечественной альтернативы системы NVIDIA GB200 NVL72. Решение Huawei отличается более высокой общей производительностью — 300 Пфлопс против 180 Пфлопс. Но в то же время оно уступает решению NVIDIA по производительности на чип и имеет значительно более высокое энергопотребление, пишет SemiAnalysis.

Система Huawei CloudMatrix 384 использует 384 ускорителя Huawei Ascend 910C, в то время как в GB200 NVL72 задействовано 36 процессоров Grace в сочетании с 72 ускорителями B200 (Blackwell). То есть, чтобы вдвое превзойти по производительности GB200 NVL72, потребовалось примерно в пять раз больше ускорителей Ascend 910C, что не очень хорошо с точки зрения использования самих ускорителей, но отлично на уровне развёртывания системы, отметил ресурс SemiAnalysis. Как утверждает SemiAnalysis, Huawei отстает от NVIDIA на поколение по производительности чипов, но опережает в проектировании и развёртывании масштабируемых систем.

 Источник изображения: TechPowerUp

Источник изображения: TechPowerUp

Если сравнивать отдельные ускорители, то NVIDIA GB200 явно превосходит Huawei Ascend 910C, обеспечивая более чем в три раза большую производительность в вычислениях в формате BF16 (2500 против 780 Тфлопс) и больший HBM на чипе (192 против 128 Гбайт) с более высокой пропускной способностью памяти (ПСП, 8 против 3,2 Тбайт/с). Другими словами, у NVIDIA есть преимущество в чистой мощности и на уровне чипа.

Но на уровне системы эффективность CloudMatrix CM384 выходит вперёд. Он выдаёт в 1,7 раза больше Пфлопс, имеет в 3,6 раз больше HBM, обеспечивает в 2,1 раза большую ПСП и объединяет более чем в пять раз больше ускорителей, чем GB200 NVL72. Однако эта масштабируемость имеет обратную сторону, поскольку система Huawei потребляет почти в четыре раза больше энергии — 145 кВт против ~560 кВт. Для Huawei CloudMatrix 384 требуется в 3,9 раза больше энергии, чем для GB200 NVL72: в 2,3 раза больше энергии на 1 флопс, в 1,8 раза — на 1 Тбайт/с ПСП и в 1,1 раза — на 1 Тбайт HBM.

SCMP со ссылкой на данные самой Huawei сообщает, что CloudMatrix CM384 показал производительность на уровне 800 Пфлопс в BF16-вычислениях без разреженности или 1920 токенов/с на модели DeepSeek-R1. Супуерускоритель размещается в 16 стойках, из которых четыре отведено только под интерконнект — всего 6912 400G-порта. Остальные стойки содержат по 32 ускорителя Ascend 910C в четырёх узлах (8×4) и ToR-коммутатор.

Как отметил SemiAnalysis, было бы заблуждением говорить, что Ascend 910C и CloudMatrix 384 производятся в Китае: HBM в них от Samsung, пластины от TSMC, а само оборудование из США, Нидерландов и Японии. Хотя у китайской SMIC уже есть 7-нм техпроцесс, подавляющее большинство Ascend 910B/910C было втайне сделано по 7-нм технологии TSMC. Предполагается, что Huawei смогла обойти санкции США, заказав чипы на $500 млн при посредничестве Sophgo. Сама TSMC прекратила поставки Huawei в 2020 году.

Постоянный URL: http://servernews.ru/1121397
16.04.2025 [12:26], Руслан Авдеев

США запретили продавать Китаю даже ослабленные ускорители NVIDIA H20

Очередным шагом в американо-китайской торговой войне стало введение администрацией Дональда Трампа (Donald Trump) запрета на поставки в КНР специально ослабленных ускорителей NVIDIA H20. По последним данным, это может стоить NVIDIA $5,5 млрд, сообщает The Register.

Деталей пока немного, но уже известно, что новые экспортные ограничения предусматривают ограничение поставок H20 не только в материковый Китай, но и Гонконг, а также другие регионы, вызывающие сомнения у американских властей. Возможность продаж не закрыта полностью — но для этого потребуется получить специальную экспортную лицензию. NVIDIA узнала об этом 9 апреля, а позже ей сообщили, что требование о получении экспортной лицензии останется в силе «на неопределённый период времени».

Согласно данным, поданным американскому регулятору — Комиссии по ценным бумагам и биржам (SEC), контроль должен предотвратить использование чипов Китаем в своих суперкомпьютерах. NVIDIA сообщила SEC, что ожидает убытков до $5,5 млрд в I квартале финансового года из-за затрат, связанных с H20, в т.ч. со списанием запасов, обязательствами по закупкам и связанными резервами.

Другими словами, у NVIDIA, похоже, останется огромная партия ускорителей H20, которые она не успела продать в Китай, а теперь они будут занимать место на складах, пока Трамп не решит, стоит ли намерение NVIDIA инвестировать в производство ИИ-решений на территории США разрешения на поставки H20 в Китай. С учётом того, что глава NVIDIA встречался с Дональдом Трампом ранее в этом месяце, вероятно, он не рассчитывал на столь суровые встречные меры. По слухам, именно после совместного обеда администрация Трампа «поставила на паузу» планы по ужесточению экспортного контроля относительно ускорителей H20.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

С учётом того, что NVIDIA совсем недавно выразила готовность расширять производство на территории США наряду с TSMC, Wistron, Foxconn и другими компаниями, вполне возможно, со временем Белый дом всё-таки разрешит поставки H20 в Китай, хотя бы в некоторых объёмах.

США уже не впервые ограничивают поставки ускорителей NVIDIA в Китай. С конца 2022 года администрация Байдена вводила ограничения на всё новые типы ускорителей, и каждый раз NVIDIA ослабляла свои решения специально для китайского рынка для того, чтобы те соответствовали техническим требованиям для свободного экспорта. Теперь, как сообщают в SEC, этот порог поднят до такой степени, что под запрет попали как H20 (и без того в разы более слабые в сравнении с современными решениями), но и другие ускорители с аналогичными характеристиками. После новостей о запрете акции NVIDIA упали более, чем на 6 %.

Удар для Китая может оказаться болезненным. В конце февраля триумф ИИ-моделей DeepSeek подстегнул спрос на ускорители H20 в Китае, а чуть более недели назад сообщалось, что NVIDIA может переключиться на выполнение заказов только из Китая в преддверии усиления санкций США.

Постоянный URL: http://servernews.ru/1121368
11.04.2025 [11:00], Сергей Карасёв

NTT представила ИИ-чип для обработки видео на периферии

Компания NTT объявила о создании ИИ-чипа, предназначенного для задач инференса на периферии. Изделие может применяться для обработки видео высокой чёткости, в том числе в формате 4K, в реальном времени на устройствах со строгими ограничениями по мощности.

В качестве сфер применения новинки NTT выделяет беспилотные летательные аппараты и камеры видеонаблюдения. Например, благодаря представленному чипу дроны могут использоваться для обнаружения прохожих и объектов, таких как автомобили, с высоты до 150 м.

Для повышения эффективности инференса при одновременном снижении энергопотребления задействованы специальные алгоритмы. Входное изображение высокого разрешения сегментируется на фрагменты, после чего производится независимая обработка каждого из них. Это позволяет обнаруживать объекты небольшого размера.

 Источник изображений: NTT

Источник изображений: NTT

Параллельно с этим выполняется анализ целого изображения в сжатом виде для обнаружения крупных объектов. После этого полученные результаты объединяются: таким образом, могут быть идентифицированы как небольшие, так и крупные детали. При этом все операции могут выполняться независимо друг от друга, что обеспечивает высокую эффективность.

По заявлениям NTT, в случае нового изделия обнаружение объектов в реальном времени при разрешении 4K (30 к/с) возможно с тем же или более низким энергопотреблением (менее 20 Вт), что и при выполнении задачи с пониженным разрешением — 608 × 608 пикселей. Повышение эффективности вычислений достигается с помощью межкадровой корреляции и динамического управления точностью вычислений. Это позволяет добиться ИИ-инференса в реальном времени при низкой затрачиваемой мощности.

На коммерческий рынок изделие планируется вывести в течение 2025 года через операционную компанию NTT Innovative Devices Corporation. Отмечается также, что NTT продолжат разработку дополнительных технологий, связанных с новым чипом.

Постоянный URL: http://servernews.ru/1121123
10.04.2025 [09:14], Владимир Мироненко

ZeroPoint Technologies и Rebellions займутся разработкой ИИ-ускорителей со «сжимаемой» памятью

Шведская компания ZeroPoint Technologies, специализирующаяся на создании решений для оптимизации памяти, объявила о стратегическом альянсе с южнокорейским разработчиком ИИ-чипов Rebellions с целью разработки ИИ-ускорителей для инференс. Компании планируют представить новые продукты в 2026 году, обещая «беспрецедентную производительность в пересчёте на токены в секунду на Вт (TPS/W)», пишет EE Times.

Компании планируют увеличить эффективную пропускную способность и ёмкость памяти для нагрузок инференса, используя технологии сжатия, уплотнения и управления памятью от ZeroPoint Technologies. По словам генерального директора ZeroPoint Technologies Класа Моро (Klas Moreau), аппаратная оптимизация работы с памятью на уровне ЦОД позволит увеличить адресуемую ёмкость с ускорением работы почти в 1000 раз по сравнению с использованием программного сжатия.

Компании планируют улучшить показатели токенов в секунду на Вт без ущерба для точности, используя сжатие модели без потерь для уменьшения её размера и сокращения использования энергии, необходимой для перемещения компонентов модели. Гендиректор Rebellions Сонхён Пак (Sunghyun Park) указал, что партнёрство позволит компаниям переопределить возможности инференса, предоставляя более умную, экономичную и устойчивую ИИ-инфраструктуру.

 Источник изображения: ZeroPoint Technologies

Источник изображения: ZeroPoint Technologies

Моро ранее заявил, что более 70 % данных, хранящихся в памяти, являются избыточными, что позволяет полностью избавиться от них, добившись сжатия без потерь полезной информации. Такая технология сжатия должна выполнять ряд специфических действий в пределах наносекунды, т.е. всего нескольких тактов: «Во-первых, она должна отрабатывать сжатие и распаковку. Во-вторых, она должна уплотнять полученные данные, собирая небольшие фрагменты в единичную линию кеша, чтобы значительно улучшить видимую пропускную способность памяти, и, наконец, она должна бесперебойно управлять данными, отслеживая все фрагменты. Чтобы минимизировать задержку, такой подход должен работать с гранулярностью линий кеша — сжимая, уплотняя и управляя данными в 64-байт фрагментах — в отличие от гораздо больших блоков 4–128 Кбайт, используемых традиционными методами сжатия вроде ZSTD и LZ4».

По словам Моро, благодаря этой технологии, для базовых рабочих нагрузок в ЦОД гиперскейлера адресуемая ёмкость памяти и пропускная способность могут быть увеличены в два-четыре раза, производительность на Вт может увеличиться на 50 %, а совокупная стоимость владения (TCO) может быть значительно снижена. А для специализированных нагрузок, таких как большие языковые модели (LLM), интеграция программного сжатия в сочетании с встроенной аппаратной декомпрессией (что минимизирует любую дополнительную задержку) уже продемонстрировала прирост примерно на 50 % в адресуемой ёмкости памяти, пропускной способности и токенах в секунду.

Моро утверждает, что грядущая интеграция аппаратной (де-)компрессии обещает ещё более существенные улучшения. Например, для базовых ИИ-нагрузок кластер со 100 Гбайт физической памяти благодаря использованию этой технологии будет функционировать так, как если бы у него было 150 Гбайт памяти. «Это не только представляет собой миллиарды долларов потенциальной экономии, но и может повысить производительность сложных ИИ-моделей», — заявил Моро. «Эти достижения обеспечивают надёжную основу для компаний, производящих чипы ИИ, позволяя бросить вызов доминированию таких гигантов отрасли, как NVIDIA», — добавил он.

Постоянный URL: http://servernews.ru/1121013
09.04.2025 [21:55], Владимир Мироненко

Google представила ИИ-ускоритель TPU v7 Ironwood, созданный специально для инференса «размышляющих» моделей

Компания Google Cloud представила тензорный ускоритель TPU седьмого поколения Ironwood, который охарактеризовала как свой самый производительный и масштабируемый настраиваемый ИИ-ускоритель на сегодняшний день и первый среди её чипов, разработанный специально для инференса.

Новый чип представляет собой важный поворот в десятилетней стратегии Google по разработке ИИ-чипов, отметил ресурс VentureBeat. В то время как предыдущие поколения TPU были созданы в первую очередь для рабочих нагрузок обучения и инференса, Ironwood — первый чип, специально созданный для инференса.

Как пояснила Google, Ironwood знаменует значительный сдвиг в развитии ИИ и инфраструктуры — переход от простых ИИ-моделей, которые просто предоставляют информацию в режиме реального времени, к моделям, которые обеспечивают проактивную генерацию идей и интерпретацию данных. Компания назвала этот период «эпохой инференса», когда ИИ-агенты будут активно извлекать и генерировать данные, чтобы совместно предоставлять информацию и ответы, а не просто «голые» сведения.

 Источник изображений: Google

Источник изображений: Google

Ironwood разработан в соответствии со сложными вычислительными и коммуникационными требованиями «моделей мышления», которые охватывают большие языковые модели (LLM), смешанные экспертные модели (MoE) и сложные задачи для рассуждения. Эти модели требуют массивной параллельной обработки и эффективного доступа к памяти. В частности, Ironwood разработан для минимизации перемещения данных и задержек на чипе при выполнении массивных тензорных манипуляций. Требования размышляющих моделей к вычислительным мощностям выходят далеко за рамки возможностей любого отдельного чипа.

Google Cloud Ironwood будет поставляться в двух конфигурациях: с 256 или с 9216 чипами. Один чип может похвастаться пиковой вычислительной мощностью 4614 Тфлопс (FP8), а кластер из 9216 чипов мощностью порядка 10 МВт выдаёт в общей сложности 42,5 Эфлопс. Ironwood оснащён усовершенствованным блоком SparseCore, предназначенным для ускорения работы с ИИ-моделями, которые используются в системах ранжирования и рекомендаций. Расширенная реализация SparseCore в Ironwood позволяет ускорить более широкий спектр рабочих нагрузок, выйдя за рамки традиционной области ИИ в финансовые и научные сферы.

Каждый чип оснащен 192 Гбайт памяти HBM, что в шесть раз больше, чем у TPU v6 Trillium. Пропускная способность памяти достигает 7,2 Тбайт/с на чип, что в 4,5 раза больше, чем у Trillium. Также используется межчиповый интерконнект Inter-Chip Interconnect (ICI) с пропускной способностью 1,2 Тбайт/с в дуплексе, что в 1,5 раза больше, чем у Trillium. Наконец, самое важное в эпоху ограниченных по мощности ЦОД — Ironwood обеспечивает вдвое большую производительность на Вт по сравнению с Trillium, а в сравнении с самым первым TPU от 2018 года он почти в 30 энергоэффективнее. Для Ironwood используется СЖО.

С Ironwood разработчики также могут задействовать программный стек Pathways от Google DeepMind, чтобы использовать объединённую вычислительную мощность десятков тысяч TPU Ironwood. Как сообщается, Ironwood будет доступен клиентам Google и её собственным разработчикам в конце 2025 года.

Google зафиксировала 10-кратный рост спроса на ИИ-вычисления за последние восемь лет. Как отметил ресурс VentureBeat, перенос Google фокуса на оптимизацию инференса имеет смысл. Обучение производится редко, а операции инференса — миллиарды раз в день. Экономика ИИ всё больше связана с затратами на инференс, особенно по мере того, как модели становятся всё более сложными и требующими больших вычислительных ресурсов.

Постоянный URL: http://servernews.ru/1121034
04.04.2025 [11:29], Руслан Авдеев

NVIDIA может переключиться на выполнение заказов только из Китая в преддверии усиления санкций США

Не исключено, что NVIDIA может заставить подождать с выполнением заказов клиентов… всех, кроме представителей китайского бизнеса. Клиенты из Поднебесной, по слухам, заказали ускорители H20 на огромную сумму $16 млрд — до того, как США, возможно, запретит продавать их в КНР, сообщает The Information. По данным китайских инсайдеров, ByteDance, Alibaba Group, Tencent Holdings и др. заказали огромное количество H20 в первые три месяца текущего года.

Имеются данные о том, что таких чипов уже не хватает в Китае, и NVIDIA может сфокусировать усилия на производстве большего количества H20 для удовлетворения спроса огромного рынка до того, как предложенный запрет вступит в действие. Может быть выполнено заказов минимум на $16 млрд — это приведёт к тому, что выпуск прочих чипов компании замедлится и приведёт к ещё большему дефициту передовых ускорителей на рынке. В результате американским и европейским клиентам придётся ждать выполнения своих заказов дольше обычного.

 Источник изображения: Glsun Mall/unsplash.com

Источник изображения: Glsun Mall/unsplash.com

H20 является самым производительным ИИ-ускорителем, допущенным для поставок в Китай в соответствии с американскими экспортными ограничениями, введёнными в октябре 2023 года. Тем не менее, США могут вскоре и вовсе запретить поставки любых ускорителей. В то же время Пекин, по слухам, ужесточает контроль над продажами чипов иностранного производства — соответствующие правила уже действуют. Это предпринимается для того, чтобы китайские компании приобрели ускорители местного производства. В IDC уже заявляли, что китайские власти поддерживают и субсидируют местных производителей для выпуска чипов на архитектуре Arm.

Впервые США ввели связанный с поставками в Китай чипов экспортный контроль в октябре 2022 года для замедления технологического развития Китая. В частности, были запрещены продажи передовых на тот момент ускорителей NVIDIA A100 и H100, специально ослабленные A800 и H800 запретили позже.

После триумфального дебюта open source ИИ-моделей китайского стартапа DeepSeek в январе 2025 года спрос на H20 значительно вырос. И, хотя H20, по некоторым данным, в 15 раз «медленнее», чем новейшие модели серии NVIDIA Blackwell, только их ещё разрешено официально продавать в Китай после ограничений, введённых в октябре 2023 года. Ускорители применяются китайскими компаниями для обучения ИИ-моделей, хотя изначально чипы позиционировались как решения для инференса.

Впрочем, как считают эксперты Moor Insights & Strategy, наращивание производства H20 не повлияет на поставки в США и Европе, поскольку для выпуска современных ускорителей Blackwell используется другой техпроцесс, т.е. другие производственные линии.

Постоянный URL: http://servernews.ru/1120781
04.04.2025 [10:10], Сергей Карасёв

Tenstorrent представила ИИ-ускорители Blackhole на архитектуре RISC-V

Канадский стартап Tenstorrent анонсировал ИИ-ускорители семейства Blackhole, выполненные в виде двухслотовых карт расширения с интерфейсом PCI Express 5.0 x16. Кроме того, дебютировала рабочая станция TT-QuietBox, оборудованная этими изделиями.

Напомним, ранее Tenstorrent выпустила ИИ-ускорители Wormhole с 72 и 128 ядрами Tensix, каждое из которых содержит пять ядер RISC-V. Объём памяти GDDR6 составляет соответственно 12 и 24 Гбайт. Производительность достигает 262 и 466 Тфлопс на операциях FP8.

В семейство Blackhole вошли модели p100a и p150a/p150b. Первая располагает 120 ядрами Tensix, 16 «большими» ядрами RISC-V, 180 Мбайт памяти SRAM и 28 Гбайт памяти GDDR6 с пропускной способностью 448 Гбайт/с. Изделия p150a/p150b оснащены 140 ядрами Tensix, 16 «большими» ядрами RISC-V, 210 Мбайт памяти SRAM и 32 Гбайт памяти GDDR6 с пропускной способностью 512 Гбайт/с.

 Источник изображений: Tenstorrent

Источник изображений: Tenstorrent

Энергопотребление у всех ускорителей достигает 300 Вт. Тактовая частота ИИ-блока — 1,35 ГГц. Габариты карт составляют 42 × 270 × 111 мм. Модели p100a и p150a наделены активным охлаждением, версия p150b — пассивным. При этом ускорители p150a/p150b оборудованы четырьмя разъёмами QSFP-DD 800G.

Рабочая станция TT-QuietBox несёт на борту четыре карты Blackhole p150. Основой служат материнская плата ASRock Rack SIENAD8-2L2T и процессор AMD EPYC 8124P (Siena) с 16 ядрами (32 потока) с тактовой частотой до 3 ГГц. Объём оперативной памяти DDR5-4800 ECC RDIMM равен 256 Гбайт (8 × 32 Гбайт). Установлен SSD вместимостью 4 Тбайт с интерфейсом PCIe 4.0 x4 (NVMe). Присутствуют по два сетевых порта 10GbE RJ45 (контроллер Intel X710-AT2) и 1GbE RJ45 (Intel i210), четыре порта USB 3.1 Gen1 Type-A (по два спереди и сзади), аналоговый разъём D-Sub.

 Источник изображений: Tenstorrent

Ускоритель Blackhole p100 предлагается по цене около $1000, тогда как обе модификации Blackhole p150 оценены в $1300. Рабочая станция TT-QuietBox Blackhole обойдётся в $12 тыс.

Постоянный URL: http://servernews.ru/1120771
02.04.2025 [11:50], Руслан Авдеев

Царь-чипы с интегрированной фотоникой: Cerebras Systems и Ranovus выбраны DARPA для создания вычислительной платформы нового поколения

ИИ-стартап Cerebras Systems выбран американским военно-техническим управлением DARPA для разработки высокопроизводительной вычислительной системы нового поколения. Cerebras объединит собственные ИИ-ускорители и фотонные CPO-интерконнекты Ranovus для обеспечения высокой производительности при малом энергопотреблении, сообщает пресс-центр Cerebras.

Комбинация технологий двух компаний позволит обеспечить в реальном времени моделирование сложных физических процессов и выполнение масштабных ИИ-задач. С учётом успеха программы DARPA Digital RF Battlespace Emulator (DRBE), в рамках которой Cerebras уже разрабатывает передовой суперкомпьютер для радиочастотной эмуляции, именно Cerebras и Ranovus были выбраны для новой инициативы, позволяющей объединить вычислительные продукты Cerebras с первыми в отрасли фотонными интерконнектами Ranovus.

Решение крайне актуальное, поскольку двумя ключевыми вопросами для современных вычислительных систем являются проблемы с памятью и обменом данных между ускорителями и иной серверной инфраструктурой — вычислительные потребности растут быстрее, чем возможности памяти или IO-систем ввода-вывода. Как утверждают в Cerebras, её WSE-чипы имеют в 7 тыс. раз большую пропускную способность, чем классические ускорители, что даёт самый быстрый в мире инференс и самое быстрое моделирование молекулярных процессов.

 Источник изображения: Cerebras

Источник изображения: Cerebras

В рамках нового плана DARPA стартап Cerebras будет использовать интерконнект Ranovus, что позволит получить производительность, недоступную даже для крупнейших суперкомпьютерных кластеров современности. При этом энергопотребление будет значительно ниже, чем у самых современных решений с использованием коммутаторов. Последние являются одними из самых энергоёмких компонентов в современных ИИ-системах или суперкомпьютерах.

Утверждается, что комбинация новых технологий двух компаний позволит искать решения самых сложных задач в реальном времени, будь то ИИ или сложное моделирование физических процессов, на недостижимом сегодня уровне. Подчёркивается, что оставаться впереди конкурентов — насущная необходимость для обороны США, а также местного коммерческого сектора. В частности, это открывает огромные возможности для работы ИИ в режиме реального времени — от обработки данных с сенсоров до симуляции боевых действий и управления боевыми или коммерческими роботами.

В Ranovus заявили, что платформа Wafer-Scale Co-Packaged Optics в 100 раз производительнее аналогичных современных решений, что позволяет значительно повысить эффективность ИИ-кластеров, и значительно энергоэффективнее продуктов конкурентов. Партнёрство компаний позволит задать новый стандарт для суперкомпьютерной и ИИ-инфраструктуры, решая задачи роста спроса на передачу и обработку данных и давая возможность реализовать военное и коммерческое моделирование нового поколения.

Помимо использования в целях американских военных, гигантские ИИ-чипы Cerebras применяются и оборонными ведомствами других стран. Так, весной 2024 года сообщалось, что продукты компании помогут натренировать ИИ для военных Германии.

Постоянный URL: http://servernews.ru/1120651
31.03.2025 [10:49], Руслан Авдеев

Новые нормы энергоэффективности ИИ-ускорителей угрожают бизнесу NVIDIA в Китае

Пекин представил новые нормы энергоэффективности для ИИ-ускорителей. Весьма вероятно, что они помешают китайским компаниям приобретать наиболее востребованные в Китае ускорители NVIDIA, если регуляторы всерьёз возьмутся за контроль их исполнения, сообщает The Financial Times.

Национальная комиссия по развитию и реформам (NDRC) настоятельно рекомендует местным игрокам рынка ЦОД использовать ускорители, соответствующие требованиям к энергоэффективности, при строительстве новых дата-центров и расширении уже существующих объектов.

Популярный в Китае ИИ-ускоритель NVIDIA H20 менее производителен, чем флагманские модели компании, но его можно официально поставлять в страну. Однако, по данным издания, на сегодняшний день H20 не соответствует новым требованиям комиссии. По информации источников, в последние несколько месяцев китайский регулятор без лишнего шума «отговаривает» местные IT-гиганты, такие как Alibaba, ByteDance и Tencent, от использования H20. Впрочем, пока правила применяются не слишком жёстко, и эти ускорители NVIDIA по-прежнему востребованы на китайском рынке.

Последствия для бизнеса NVIDIA могут оказаться серьёзнее, если комиссия решит ужесточить запрет — это поставит под угрозу многомиллиардные доходы компании в Китае. Несмотря на активное строительство дата-центров, американский разработчик рискует потерять заказы, а его место займёт Huawei, чьи продукты лучше соответствуют новым «зелёным» требованиям. В настоящее время NVIDIA ищет способы повысить энергоэффективность своих решений и стремится провести переговоры с руководством NDRC для обсуждения сложившейся ситуации. Однако это приведёт к снижению производительности H20 и, соответственно, конкурентоспособности на китайском рынке.

 Источник изображения: Henry Chen/unsplash.com

Источник изображения: Henry Chen/unsplash.com

Поскольку ограничения распространяются главным образом на новые, строящиеся ЦОД, некоторые компании обходят правила, заменяя в уже действующих дата-центрах старые ускорители на H20. В других случаях несоблюдение норм может привести к проверкам и штрафам. Хотя ограничения вступили в силу ещё в прошлом году, до недавнего времени о них не сообщалось — Китай всеми силами стремится к технологическому суверенитету в полупроводниковой сфере и активно содействует отказу местных компаний от продукции NVIDIA. Прямым конкурентом H20 считается Huawei Ascend 910B, на подходе и вариант 910C.

NRDC недвусмысленно намекает на будущее отношений Пекина и NVIDIA. После ужесточения экспортных ограничений США в отношении Китая в октябре 2023 года компания специально разработала ослабленную экспортную версию H20. Однако на фоне триумфа китайских ИИ-моделей стартапа DeepSeek в стране разразился настоящий бум ИИ-технологий, и компании вроде Alibaba и Tencent активно закупают H20, особенно с учётом вероятного дальнейшего ужесточения американских санкций, включая возможный запрет на поставки даже ослабленных ускорителей.

Китай — четвёртый по величине рынок для NVIDIA в мире: в 2025 фискальном году выручка компании здесь составила $17,1 млрд, или 13 % от всех продаж. Помимо Huawei, конкуренцию NVIDIA на китайском рынке может составить и Intel с её ускорителями HL328 и HL388, однако они также не соответствуют новым китайским требованиям по энергоэффективности. Впрочем, их доля в китайском импорте изначально была незначительной.

Постоянный URL: http://servernews.ru/1120540
Система Orphus