Материалы по тегу: инференс

29.05.2026 [21:36], Владимир Мироненко

FuriosaAI и Broadcom создадут ИИ-ускоритель для платформы инференса для агентной эры

Южнокорейский стартап FuriosaAI объявил о заключении соглашения о стратегическом партнёрстве с Broadcom для разработки тензорного (TCP) ИИ-ускорителя третьего поколения в качестве основы масштабируемой платформы инференса, предназначенной для обслуживания передовых агентных систем гиперскейлеров.

Стартап намерен объединить передовые возможности Broadcom по упаковке, позволяющие интегрировать несколько кремниевых кристаллов в ИИ-ускоритель, и её достижения в масштабируемых сетевых решениях для ИИ со своей ИИ-архитектурой и программным стеком для создания платформы инференса в масштабе стойки

По словам FuriosaAI, в результате сотрудничества с Broadcom архитектура процессора Tensor Contraction Processor (TCP) «превратится в многокристальную систему», которая лучше подходит для «высокопроизводительных требований к токенам» рабочих нагрузок инференса и агентного ИИ, пишет DataCenter Dynamics.

FuriosaAI отметила, что эта архитектура сделает чипы более подходящими для «реальных рабочих ИИ-нагрузок» и что, сосредоточившись на высокоскоростной передаче данных, а не на управлении потоками вычислений, ускорители обеспечат более высокую производительность на ватт и большую «плотность» токенов, чем «передовые GPU».

 Источник изображения: FuriosaAI

Источник изображения: FuriosaAI

Сообщается, что чип третьего поколения FuriosaAI будет включать вычислительный 2-нм кристалл, выделенный IO-кристалл SUE-интерконнекта и двуслойную память HBM4/4E. Благодаря интеграции Scale-Up Ethernet (SUE) и PCIe-решений Broadcom, система будет обеспечивать низкую задержку и высокую пропускную способность интерконнекта All-to-All между сотнями чипов в масштабе стойки. Существующие системы могут объединять не более восьми ИИ-ускорителей RNGD.

Как отметил президент группы полупроводниковых решений Broadcom, производительность инференса больше не определяется исключительно вычислительными ресурсами. Она всё больше зависит от повторного использования данных и эффективности обмена данными между серверами и стойками: «Сочетая архитектуру TCP FuriosaAI с ведущей на рынке технологией XPU и IP-платформой Broadcom, масштабируемым Ethernet и коммутаторами сетевых фабрик, мы создаём платформу, которая решает ключевые проблемы крупномасштабного агентного ИИ», — заявил он.

«Объединение инфраструктурных возможностей Broadcom и архитектуры Tensor Contraction Processor от FuriosaAI, а также её определяющего отрасль программного стека, позволяет нам выйти за рамки уровня чипа и предложить комплексное решение для эпохи фабрик токенов», — отметил соучредитель и генеральный директор FuriosaAI.

 Источник изображения: Broadcom

Источник изображения: Broadcom

Хотя вычислительная мощность по-прежнему важна для рабочих ИИ-нагрузок, особенно на этапе предварительного заполнения, FuriosaAI сосредоточилась на перемещении данных между HBM и DRAM. «TCP ориентирован на высокоскоростную передачу данных и масштабные тензорные операции, а не на управление тысячами крошечных потоков. Он рассматривает доступ к памяти как первостепенную задачу, устраняя “обрыв” эффективности, с которым сталкиваются GPU, когда модели выходят за рамки жёстких иерархий кеша»,сообщается в блоге компании.

Аппаратное обеспечение FuriosaAI поддерживается программным стеком, который позволяет разработчикам быстро развёртывать приложения, а также легко переключаться на новые модели и новые методы оптимизации. В то время как устаревшие платформы требуют обширной ручной настройки ядер для каждой новой модели, SDK FuriosaAI использует универсальный компилятор, который автоматически сопоставляет высокоуровневый код PyTorch с полупроводниковой архитектурой. Для разработчиков, которым требуется более детальный контроль, виртуальная архитектура набора команд FuriosaAI предлагает декларативную модель программирования, которая обеспечивает управление оборудованием без недетерминированной сложности традиционного программирования для GPU, отметила компания.

Ранее сообщалось, что Broadcom продлила сотрудничество с Meta для разработки нескольких поколений кастомных ИИ-чипов. Также она расширила контракт с Google по снабжению её новыми поколениями ИИ-чипов. Создаёт Broadcom специализированные чипы и для OpenAI. Всего у компании в разработке порядка десяти кастомных ASIC.

Постоянный URL: http://servernews.ru/1142619
29.05.2026 [09:30], Руслан Авдеев

Cisco: агентный ИИ трансформирует структуру интернет-коммуникаций, а через 10 лет на него придётся четверть трафика

Хотя сегодня на пользовательский ИИ-трафик приходится лишь малая доля от общего объёма, распространение агентного ИИ существенно изменит его структуру. В отчёте AI Impact on Wide Area Networks (WAN) компания Cisco прогнозирует, что именно ИИ станет главным драйвером роста сетевого трафика, а потребительский трафик к середине 2030-х гг. вырастет приблизительно в 6,6 раза, сообщает блог IEEE ComSoc.

По оценкам Cisco, ИИ обеспечит около 63 % дополнительного роста трафика, если сравнивать со сценарием без учёта ИИ. Исследование уделяет основное внимание именно WAN-сетям (без ЦОД и кластеров) и даёт рекомендации по проектированию сетей и планированию пропускной способности.

Потребительский ИИ-трафик в основном по-прежнему состоит из коротких текстовых диалогов, но ситуация меняется с переходом к агентному ИИ и мультимодальным взаимодействиям. Пока же, по данным Comcast, 97,1 % ИИ-трафика приходилось на текст, 2,6 % на изображения и 0,3 % на видео. И хотя на инференс приходится лишь «незначительная» доля трафика, Cisco полагает, что к 2035 году на него будет приходиться приблизительно 25 % всего трафика Сети.

 Истчоник изображения: Robin Pierre/unsplash.com

Истчоник изображения: Robin Pierre/unsplash.com

Важно, что инференс-трафик вдвое продолжительнее типичных веб-взаимодействий и к тому же интенсивнее, поскольку генерируется роботом. При выполнении некоторых задач агентами может использоваться до 450 % больше трафика на задачу, чем человеком, а около 9 % инференс-потоков обеспечивают больше исходящего трафика (upstream), чем входящего, тогда как у обычного веб-трафика на upstream приходится всего 0,5 %, и это уже серьёзный сдвиг в поведении Сети, который с ростом использования агентных ИИ будет только расти.

Использование ИИ гораздо чувствительнее к задержкам, чем при большинстве обычных сетевых сценариев, поскольку коммуникация пользователя с ИИ часто идёт в виде разговора в интерактивном режиме, и ожидаются почти мгновенные ответы. По мнению Cisco, даже небольшие задержки становятся критичными для качества сервиса. В то же время растут и объёмы ИИ-трафика, поскольку увеличиваются мультимодальные промпты/загрузки и использование агентов.

 Источник изображения: Cisco

Источник изображения: Cisco

Изменения структуры трафика потребуют и изменений физической инфраструктуры. Оптоволоконные сети уже обеспечивают относительно симметричные потоки данных и низкую задержку, но операторы DOCSIS вынуждены бороться за снижение задержки и выделять больше полос для исходящего трафика в ущерб входящему.

Теперь для ШПД-сетей одной из ключевых задач становится пропускная способность upstream-каналов, задержки и т.п., а не просто общий объём пропускаемых данных. Повышение симметричности upstream- и downstream-каналов, а также возможность обеспечения низкой задержки становится чрезвычайно важным, особенно по мере роста мультимодального и агентного использования ИИ.

Постоянный URL: http://servernews.ru/1142525
20.05.2026 [20:05], Владимир Мироненко

Alibaba представила ИИ-ускоритель Zhenwu M890, который втрое быстрее предшественника

Alibaba Group представила ИИ-ускоритель Zhenwu M890, разработанный её подразделением T-Head Semiconductor (Pingtouge Semiconductor), сообщило агентство Reuters. Согласно опубликованным сведениям о Zhenwu M890, это самый высокопроизводительный продукт, созданный T-Head на сегодняшний день. Он позиционируется как конкурент ускорителю NVIDIA H100, хотя и уступает ему по ряду показателей. Чип поддерживает форматы FP32/BF16/FP16 для обучения и FP8/FP4/INT8/INT4 — для инференса. Новый ускоритель был специально разработан для новой волны ИИ-агентов.

Сообщается, что новинка примерно в три раза превосходит предшественника Zhenwu 810E по производительности, но точные характеристики не приводятся. Ускоритель имеет 144 Гбайт HBM и интерфейс PCI 5.0 x16. Каждый M890 имеет 8 портов интерконнекта ICN (800 Гбайт/с) и поддерживает бесшовное объединение до 64 карт. Также была представлена серверная система Panjiu AL128, которая объединяет 128 ускорителей Zhenwu M890 в одной стойке. Система вместе с фирменным стеком T-SAIL уже сейчас доступна китайским корпоративным клиентам через платформу Alibaba Cloud для внутреннего рынка, известную как Bailian.

 Источник изображений: T-Head

Источник изображений: T-Head

По словам компании, новый чип хорошо подходит для обработки больших объёмов памяти и коммуникационных нагрузок агентских приложений, для которых модели должны сохранять длительные периоды контекста и координировать свои действия в реальном времени. T-Head сообщила, что на сегодняшний день отгрузила более 560 тыс. ускорителей семейства Zhenwu, и более 400 внешних клиентов из 20 отраслей, включая автопроизводителей и финансовые компании, уже их внедрили. В начале апреля Alibaba и оператор China Telecom заявили о запуске ЦОД на юге Китая, работающего на собственных чипах компании.

Alibaba также представила план разработки чипов на несколько лет вперёд, согласно которому в III квартале 2027 года выйдет преемник под названием V900, а в III квартале 2028 года — чип следующего поколения — J900. Согласно заявлению Alibaba, запланированный к выпуску в следующем году V900 обеспечит примерно трёхкратное увеличение производительности по сравнению с M890. По имеющейся информации, ускорители Alibaba Group производятся по техпроцессам, которые китайские заводы могут использовать без контролируемого США литографического оборудования, что является ограничивающим фактором, определяющим весь цикл производства микросхем в Китае.

Поскольку ни один экземпляр H200 из одобренных США для поставки десяти китайским покупателям так и не был отгружен, китайские клиенты ускоряют переход к альтернативам местных компаний: Alibaba Zhenwu, Huawei Ascend, Cambricon Siyuan и др. По мнению Counterpoint Research, Zhenwu даст местным компаниям ещё один вариант для их ИИ-инфраструктуры, хотя остаются вопросы о том, сколько чипов Alibaba сможет выпустить на местных полупроводниковых заводах (SMIC): «M890 — это небольшой, но реальный вклад в самодостаточность Китая в области ИИ… С точки зрения чистой производительности кремния, M890 не является настоящим конкурентом H200. Но в этом и нет нужды. Для китайского рынка это достойная замена H200».

Постоянный URL: http://servernews.ru/1142068
14.05.2026 [18:02], Владимир Мироненко

Благодаря спросу на ИИ AMD нарастила долю на рынке серверных CPU, а Intel потихоньку теснит Arm

AMD добилась значительных успехов в сегменте серверных процессоров в I квартале 2026 года. По оценкам Mercury Research, на EPYC пришлось 46,2 % рынка серверных процессоров в денежном выражении, что стало новым историческим максимумом у компании в этой категории продукции. При этом в количественном выражении доля AMD EPYC в общем объёме продаж в сегменте гораздо меньше — 27,4 % (последовательный рост на 230 базисных пунктов), что указывает на их гораздо более высокую среднюю цену продажи (ASP) по сравнению с конкурентами.

Общий объём поставок серверных процессоров увеличился примерно на 6 % последовательно и примерно на 19 % год к году. Больше половины рынка серверных чипов в количественном выражении (54,9 %, снижение на 370 базисных пунктов по сравнению с предыдущим кварталом) принадлежит Intel. И судя по её доле рынка в денежном выражении в размере 53,8 % и доле в количественном выражении, можно с уверенностью предположить, что средняя цена серверных процессоров Intel Xeon ниже, чем у AMD EPYC.

По данным Mercury Research, на Arm-процессоры для ЦОД приходится около 17,7 % (последовательный рост на 140 базисных пунктов), что составляет почти пятую часть от общего объёма поставок в I квартале 2026 года. Вместе с тем, не уточняется, идёт ли речь о продукции Ampere и других производителей Arm-процессоров, или же о собственных разработках таких компаний, как Google, AWS или Microsoft.

 Источник изображения: AMD

Источник изображения: AMD

В 2026 году ключевым трендом на рынке ИИ стало активное внедрение ИИ-агентов и мультиагентных систем, что обусловило высокий спрос на процессоры и успех AMD. При развёртывании агентного ИИ растёт роль CPU, что привело к изменению конфигурации вычислительных систем от традиционного соотношения, когда один процессор работает в паре с четырьмя или даже восемью ускорителями, в сторону соотношения один к одному.

Благодаря возросшему спросу AMD сейчас продаёт каждый произведённый процессор, а Intel реализует заинтересованным клиентам даже то, что ранее списывалось как брак. Вместе с тем в настоящее время AMD удаётся добиваться более высоких средних цен на свою продукцию.

Постоянный URL: http://servernews.ru/1141742
13.05.2026 [00:40], Владимир Мироненко

Red Hat анонсировала интегрированную ИИ-платформу Red Hat AI 3.4

Red Hat представила Red Hat AI 3.4, обновлённую версию корпоративной ИИ-платформы, разработанную для поддержки крупномасштабного инференса и развёртывания агентного ИИ в гибридных облачных средах. В качестве комплексной платформы Red Hat AI 3.4 предлагает архитектурную основу и операционные инструменты, необходимые для масштабирования моделей и рабочих процессов агентов в гибридном облаке.

Стратегия Red Hat в области ИИ разделена на четыре ключевых направления, заявил Джо Фернандес (Joe Fernandes), вице-президент и генеральный директор Red Hat AI. «Во-первых, мы помогаем клиентам быстро, гибко и эффективно выполнять инференс, предоставляя модели в их среде, — передаёт SiliconANGLE. — Во-вторых, мы подключаем их корпоративные данные к этим моделям и агентам. В-третьих, мы помогаем им ускорить развёртывание и управление агентами в гибридной облачной среде. В-четвёртых, мы объединяем всё это на нашей интегрированной ИИ-платформе, позволяя им запускать любую модель в любом агенте на любом оборудовании и в любой облачной среде».

Как отметила компания, ключевым элементом этого релиза является предоставление модели как услуги (MaaS), которое обеспечивает единый управляемый интерфейс для разработчиков, позволяющий получать доступ к тщательно отобранным моделям, а администраторам — отслеживать их использование и применять политики. Разработчики получают доступ к моделям через стандартные OpenAI-совместимые API. Таким образом, единое управление применяется как к внутренним, так и к внешним моделям. А инструменты AutoRAG и AutoML автоматизируют сложные задачи ИИ, начиная с выбора наиболее эффективных стратегий извлечения данных для конкретных наборов и заканчивая построением и оптимизацией моделей.

 Источник изображения: Red Hat

Источник изображения: Red Hat

В основе системы лежит открытая библиотека vLLM. Её дополняет Kubernetes-нативный стек для инференса llm-d. Поддержка спекулятивного декодирования, которая в этом релизе стала общедоступной, повышает скорость ответа в два-три раза с минимальным влиянием на его качество и снижает стоимость взаимодействия. Кроме того, vLLM теперь поддерживает работу на CPU, что актуально для небольших языковых моделей. Для управления инструментами для агентов Red Hat представляет каталог серверов MCP и связанный с ним шлюз MCP.

Новый инструментарий AgentOps даёт возможность управления агентами в масштабе, независимо от используемой платформы, на протяжении всего их жизненного цикла. Это включает в себя интегрированную трассировку вызовов LLM, вызовов инструментов и этапов рассуждений, а также управление криптографической идентификацией через SPIFFE/SPIRE. Последний позволяет организациям заменять статические, жёстко закодированные ключи кратковременными токенами. Это поддерживает операции с минимальными привилегиями для автономных агентов на всех уровнях стека и помогает подтвердить, что действия агентов связаны с проверенной личностью.

Для обеспечения интеграции корпоративных данных с моделями и агентами Red Hat AI 3.4 представляет управление с помощью промптов и центр оценки точности, качества и безопасности моделей и агентов. Последний не зависит от фреймворков и заменяет разрозненные методы тестирования единым интегрированным подходом. Prompt Lab and Registry, централизованное хранилище промптов в виде полноценных информационных ресурсов, предоставляет разработчикам и администраторам единый источник достоверной информации о входных данных, управляющих моделями и агентами.

 Источник изображения: Red Hat

Источник изображения: Red Hat

Новые возможности трассировки построены на основе MLflow. Интеграция MLflow обеспечивает прозрачность работы агента, позволяя осуществлять сквозную трассировку вызовов LLM, этапов рассуждений, запуска инструментов, ответов модели и использования токенов через OpenTelemetry. Это создаёт прозрачный журнал аудита для всего жизненного цикла подсказок, эмбеддингов и конфигураций RAG для поддержки отладки и аудита. MLflow также обеспечивает интегрированное отслеживание экспериментов и управление артефактами для сценариев использования генеративного ИИ и прогнозного ИИ.

Платформа Red Hat AI позволяет пользователям проверять безопасность моделей и агентов с помощью автоматизированного сканирования на наличие угроз, которое теперь интегрировано непосредственно в цикл разработки. Используются инструменты Chatterbox Labs и Garak. Платформа проверяет модели и агентных систем на наличие таких рисков как взлом, промпт-инъекций и предвзятость, в сочетании с NVIDIA NeMo Guardrails для обеспечения безопасности во время выполнения.

Сообщается, что Red Hat AI 3.4 изначально поддерживает ускорители NVIDIA Blackwell и AMD Instinct MI325X. Расширяя эту унифицированную архитектуру платформы для работы непосредственно в управляемых облаках сторонних разработчиков, в том числе посредством Red Hat AI Inference в IBM Cloud, Red Hat обеспечивает операционную согласованность на широком спектре оборудования и облачных провайдеров.

Постоянный URL: http://servernews.ru/1141606
08.05.2026 [01:10], Владимир Мироненко

AMD представила ускоритель Instinct MI350P — CDNA 4 в формате PCIe

AMD представила Instinct MI350P с интерфейсом PCIe — двухслотовую FHFL-карту для стандартных серверов с воздушным охлаждением. MI350P предназначена для локального развёртывания инференса в рамках существующей инфраструктуры электропитания, охлаждения и серверных стоек ЦОД предприятий. AMD отметила, что новинки с возможностью установки до 8 ед. в одно шасси «идеально подходят для инференса малых, средних и крупных ИИ-моделей и конвейеров RAG».

Это первая PCIe-карта Instinct, выпущенная AMD за последние четыре года после выхода модели Instinct MI210. 600-Вт чип MI350P, по сути, представляет собой половинку MI350X (четыре XCD). У MI350P PCIe вдвое меньше вычислительных блоков — 128, что соответствует 8192 потоковым процессорам и 512 матричным ядрам. Пиковая частота составляет 2200 МГц. Кроме того, вместо двух IOD-кристаллов тут только один, он изготовлен по 6-нм техпроцессу TSMC. Сам ускоритель сделан по 3-нм технологии TSMC как MI350X. Весь чип содержит 73 млрд транзисторов.

 Источник изображений: AMD

Источник изображений: AMD

Ускоритель оснащён 128 Мбайт кеш-памяти Infinity Cache и 144 Гбайт памяти HBM3E с 4096-бит шиной, обеспечивающей пропускную способность 4 Тбайт/с. Для сравнения, MI350X оснащён 288 Гбайт памяти HBM3E с 8192-бит шиной. Плата 16-контактный разъём для подачи дополнительного питания. TBP можно установить на уровне 450 Вт вместо стандартных 600 Вт, что снизит производительность и ещё больше — энергопотребление. Интерфейс — PCIe 5.0 x16. Чуть позже будет реализована поддержка SR-IOV и возможность поделить чип на два или четыре vGPU.

Расчётная производительность Instinct MI350P в MXFP4-расчётах составляет 2,3 Пфлопс, а пиковая — 4,6 Пфлопс. Это самая высокая производительность среди PCIe-ускорителей корпоративного класса, отметила компания. Предусмотрена поддержка разрежённости для форматов FP16, BF16, INT8 и OCP-FP8, что позволяет ускорить обработку данных. Векторная и матричная FP64-производительности составляет 36 Тфлопс. Кроме того, ускоритель снабжён декодерами HEVC/H.265, AVC/h.264, VP9 и AV1, а также кодеками (M)JPEG.

Самым существенным недостатком новинки — это отсутствие прямой связи между ускорителями посредством Infinity Fabric. Всё общение внутри одного узла происходит посредством PCIe-шины, так что наличие восьми MI350P в одном сервере позволит эффективно обслуживать восемь отдельных моделей (до 200–250 млрд параметров), а не одну большую, которая не помещается в памяти единичного ускорителя. NVIDIA попыталась чуть смягчить эту проблему, представив для своих PCIe-ускорителей плату с адаптерами ConnectX-8 SuperNIC со встроенными коммутаторами PCIe 6.0.

Сообщается, что Instinct MI350P доступны у различных партнёров компании. Они предлагают полностью открытую экосистему и программный стек Enterprise Ready AI с поддержкой ROCm. AMD заявила, что её эталонный open source пакет AMD Enterprise AI предоставляется партнёрам без каких-либо затрат на лицензирование. Это обеспечивает большую прозрачность кода и помогает снизить операционные расходы. В сочетании с картами Instinct MI350P и решениями от партнёров этот стек позволяет компаниям быстро развёртывать локальные системы без постоянных затрат на токены, говорит AMD.

Постоянный URL: http://servernews.ru/1141372
03.05.2026 [12:26], Руслан Авдеев

Nebius купила стартап Eigen AI, повышающий производительность ИИ-моделей

Неооблачная компания Nebius Group NV объявила о приобретении стартапа Eigen AI. Разработки последнего повышают эффективность использования ИИ-ускорителей благодаря оптимизации ПО. Покупатель готов потратить приблизительно $643 млн, сообщает Bloomberg: $98 млн наличными средствами и 3,8 млн акций Nebius. Оценка акций основана на их 30-дневной средневзвешенной цене.

Соучредителями калифорнийской Eigen, насчитывающей 20 сотрудников, являются выпускники известной ИИ-лаборатории Массачусетского технологического института (MIT). Стартап специализируется на оптимизации открытых ИИ-моделей, предлагаемых OpenAI, Alibaba, Meta и NVIDIA. Технология позволяет максимизировать количество токенов, генерируемых каждым из ускорителей NVIDIA. Это, как утверждает Nebius, позволяет предоставлять более качественные и недорогие услуги.

Отделившаяся от российской Yandex компания Nebius относится к группе «неооблачных» бизнесов, обеспечивающих аренду ИИ-мощностей гигантам вроде Microsoft. В ноябре 2025 года Nebius представила продукт Token Factory для инференса, позволяющий конкурировать с ИИ-стартапами и облачными гиперскейлерами.

 Источник изображения: Amina Atar/unsplash.com

Источник изображения: Amina Atar/unsplash.com

В условиях, когда мощности ЦОД в дефиците, Nebius резервирует часть собственных мощностей для нужд Token Factory, не передавая их клиентам в рамках долгосрочных контрактов. Это позволяет оптимизировать цены и расширить спектр предоставляемых компанией услуг. Цель Nebius — стать одним из ключевых игроков рынка инференса в следующие 18 мес. В Nebius сравнили получение максимального количества токенов с олимпийским видом спорта, а участников команды Eigen — с олимпийскими бегунами.

Речь идёт уже о второй покупке Nebius за последние три месяца. В феврале компания заключила сделку по покупке Tavily и рассматривает и другие приобретения, хотя конкретные «кандидаты» пока не называются. В целом речь идёт о покупке компаний с командами и/или возможностями, ускоряющими реализацию анонсированной стратегии, либо добавляющих продукты и функции, доступные непосредственно клиентам. Компания подчёркивает, что не намерена выступать простым провайдером инфраструктуры, в то время как кто-то «сверху» будет работать с реальными клиентами.

Постоянный URL: http://servernews.ru/1141096
02.05.2026 [23:32], Владимир Мироненко

Qualcomm готовится поставлять чипы гиперскейлеру — инвесторы довольны, поскольку на мобильном направлении не всё гладко

Акции Qualcomm выросли более чем на 15 % после сообщения компании о превышении прогнозов Уолл-стрит по прибыли и выручке во II квартале 2026 финансового года, а также заявления президента и гендиректора Кристиано Амона (Cristiano Amon) о планах начать поставки чипов для ЦОД «крупному гиперскейлеру» в течение календарного года, пишет SiliconANGLE.

Выручка Qualcomm во II квартале 2026 финансового года, закончившемся 29 марта, составила $10,6 млрд, что на 3 % меньше, чем годом ранее, но чуть выше прогноза Уолл-стрит в размере $10,58 млрд. Компания сообщила о скорректированной прибыли на акцию в размере $2,65, что ниже показателя в $2,85 за тот же квартал прошлого года, но выше прогноза аналитиков в $2,55 на акцию. В полупроводниковом секторе (QCT) выручка увеличилась год к году на 4 % до $9,08 млрд. При этом выручка в автомобильном сегменте выросла на 38 % до $1,33 млрд, в сегменте IoT — на 9 % до $1,73 млрд, а в сегменте мобильных устройств упала на 13 % до $6,02 млрд. Выручка от лицензий (QTL) за квартал составила $1,38 млрд, что на 5 % больше, чем годом ранее.

 Источник изображений: Qualcomm

Источник изображений: Qualcomm

В III финансовом квартале Qualcomm прогнозирует скорректированную прибыль на акцию в размере от $2,10 до $2,30 при прогнозе Уолл-стрит $2,43. Прогноз по выручке тоже значительно ниже консенсус-прогноза аналитиков, опрошенных LSEG (по данным Reuters) — от $9,2 до $10 млрд при прогнозе в $10,27 млрд. Свой осторожный прогноз Qualcomm объяснила ограничениями поставок памяти и связанным с этим ценовым давлением на ряд производителей мобильных устройств. Компания добавила, что выручка от продаж мобильных телефонов китайским клиентам должна достичь минимума в III квартале и вернуться к последовательному росту в следующем квартале.

Qualcomm ушла с рынка продуктов для ЦОД в 2018 году, чтобы сосредоточиться на своих разработках в области смартфонов, но в августе 2025 года сообщила, что находится на «ранних этапах» возвращения на рынок и ведёт переговоры с несколькими потенциальными клиентами. Гендиректор тогда также подтвердил, что компания ведёт «продвинутые переговоры с ведущим гиперскейлером». До этого, в мае 2025 года компания подписала меморандум о взаимопонимании с Humain и объявила о работе над серверным процессором, который будет поддерживать NVIDIA NVLink.

Фактически после поглощения Nuvia компания не стала выходить на рынок ЦОД. А после долгих судебных разбирательств с Arm в связи с этой сделкой последняя фактически стала конкурентом Qualcomm и другим своим клиентам, взявшись за создание серверных CPU. С ИИ-ускорителями у компании всё тоже сложилось не очень удачно. Первое поколение широкого распространения не получило, но компания пообещала исправиться. При этом на рынке кастомных чипов для гиперскейлеров уже давно работают Broadcom и Marvell, у которых к тому же сильные компетенции в области сетевой инфраструктуры.

Как пишет The Register, Кристиано Амон заявил, что компания планирует начать поставки чипов для ЦОД «ведущему гиперскейлеру» «в декабрьском квартале» и ожидает сотрудничество на несколько поколений чипов. По его словам, Qualcomm уже работает над процессором для ЦОД и высокопроизводительными ИИ-ускорителями для инференса, а также получила возможность создавать кастомные ASIC благодаря приобретению Alphawave в прошлом году за $2,4 млрд. «Мы работаем над специализированными ASIC, чего мы и хотели добиться, когда приобрели AlphaWave, — сказал Амон, — и теперь у нас есть много интеллектуальной собственности, позволяющей нам это сделать. Мы работаем над всеми тремя категориями чипов».

Амон рассказал, что Qualcomm также создала так называемый «выделенный процессор для агентских вычислений в ЦОД». По его словам, ИИ начинался с GPU для обучения, затем потребовалось специализированное оборудование для инференса, но сейчас рынок вступает в новую фазу, в которой важно «создать спрос на токены» для работы агентного ИИ. «Я думаю, что когда речь заходит об агентах, CPU становится очень важным», — сказал он, поэтому, по его словам, Qualcomm разработала именно такой чип.

Кристиано Амон также прогнозирует появление «агентных смартфонов». Он привёл в качестве примера телефон ZTE, который включает в себя персонального помощника Doubao, разработанного ByteDance, и Xiaomi miclaw — ИИ-ассистента, интегрированного с ядром ОС, который анализирует запрос пользователя и определяет, какие приложения и функции смартфона нужно задействовать для его выполнения. Не исключено, что OpenAI может стать следующим крупным клиентом Qualcomm в сфере смартфонов, если генеральный директор Сэм Альтман (Sam Altman) реализует план выпустить устройство с ИИ в течение двух лет.

Постоянный URL: http://servernews.ru/1141069
30.04.2026 [15:18], Владимир Мироненко

Lumai анонсировала «оптические» ИИ-серверы Iris с фотонными ускорителями инференса

Британский ИИ-стартап Lumai анонсировал семейство серверов для инференса Lumai Iris с использованием оптических вычислений, предназначенное для исполнения в реальном времени больших языковых моделей (LLM) с миллиардами параметров. Семейство Lumai Iris включает серверы Nova, Aura и Tetra. Lumai Iris Nova уже доступен для оценки гиперскейлерами, неооблачными платформами, предприятиями и исследовательскими институтами.

Lumai заявил, что использование Lumai Iris позволяет ускорить выполнение задач инференса, используя свет вместо кремниевой обработки. Оптическая вычислительная система Lumai обеспечивает более быстрый инференс, более высокую эффективность выполнения и до 90 % меньшее энергопотребление по сравнению с традиционными архитектурами, при этом являясь более экологичными по сравнению с традиционными системами на базе GPU. Впрочем, технические детали оптических ИИ-ускорителей пока не раскрыты.

 Источник изображений: Lumai

Источник изображений: Lumai

Компания отметила, что спрос на вычисления для ИИ смещается от обучения моделей к крупномасштабному инференсу, когда модели используются в реальных приложениях. По мере роста объёмов вычислительных задач ЦОД сталкиваются с жёсткими ограничениями по энергопотреблению и масштабируемости, с которыми традиционные кремниевые архитектуры с трудом справляются. Компания заявила, что семейство Iris призвано решить проблемы с энергопотреблением и стоимостью ИИ-инфраструктуры за счёт повышения производительности на киловатт.

Традиционные кремниевые архитектуры сталкиваются с фундаментальными физическими ограничениями в масштабируемости, энергопотреблении и тепловой эффективности. Каждое новое поколение кремниевых чипов предлагает небольшие улучшения, но при этом требует значительно больше энергии и средств для масштабирования. «По мере перехода отрасли в эру инференса мы одновременно пересекаем порог посткремниевой эры, — сказал Сяньсинь Го (Xianxin Guo), генеральный директор и соучредитель Lumai. — Переходя от электронно-фотонной вычислительной парадигмы к фотонной, Lumai может обеспечить увеличение производительности на порядок при значительной экономии энергии».

Lumai отметила, что оптические вычисления позволяют значительно повысить эффективность выполнения обработки ИИ-нагрузок. Технология оптических вычислений Lumai, разработанная на основе исследований в Оксфордском университете, использует свет в трёхмерном среде, тогда как обычные чипы «живут» в 2D. Благодаря использованию массового пространственного параллелизма, миллионы операций выполняются одновременно, обеспечивая низкую стоимость и высокую пропускную способность токенов при выполнении ресурсоёмких вычислительных задач.

Технология Lumai также показала свою эффективность на этапе предварительного заполнения дезагрегированных архитектур инференса, обрабатывая токены с максимальной эффективностью и масштабированием. Iris Nova выполняет инференс в реальном времени моделей Llama 8B и 70B с помощью гибридного процессора. Его гибридная архитектура сочетает цифровую обработку для управления системой и ПО с оптическим тензорным движком для основных математических операций. Такой подход обеспечивает бесшовную интеграцию серверов в ЦОД.

Постоянный URL: http://servernews.ru/1140939
29.04.2026 [01:23], Владимир Мироненко

Tenstorrent представила ИИ-серверы Galaxy Blackhole для быстрой генерации токенов и без дезагрегации

Tenstorrent представила вычислительную систему Galaxy Blackhole на базе ускорителей Blackhole с архитектурой RISC-V, которая позиционируется как системная ИИ-платформа, способная конкурировать с другими решениями за счёт стабильной производительности инференса, высокоскоростного доступа к памяти и масштабируемой сети — трёх факторов, которые всё чаще определяют эффективность развёртывания ИИ в реальных условиях, пишет Forbes.

6U-сервер Tensorrent Galaxy Blackhole с воздушным охлаждением основан на 32 ИИ-ускорителях Blackhole суммарной производительностью 23 Пфлопс в режиме FP8. Система включает 6,2 Гбайт SRAM (суммарно 2,9 Пбайт/с) и 1 Тбайт GDDR6 (суммарно 16 Тбайт/с). Высокоскоростную связь между узлами при горизонтальном масштабировании обеспечивают 800GbE-порты — до 56 портов на систему с общей пропускной способностью 11,2 Тбайт/с (в дуплексе).

Стоимость системы Tensorrent Galaxy Blackhole составляет $110 тыс. Восьмичиповые системы NVIDIA DGX будут производительнее, но и обойдутся в три-пять раз дороже, сообщил The Register. Базовый суперкластер Galaxy Supercluster стоимостью в $440 тыс. включает четыре системы Blackhole. При этом архитектура Tenstorrent поддерживает масштабирование до 32 узлов с 1024 ускорителями. Mesh-сеть Tenstorrent не ограничивается одним узлом. Подобно кластерам TPU от Google или Trainium2 от Amazon, её можно расширить для поддержки более крупных моделей, более высокой пропускной способности или большей интерактивности, добавив больше узлов и отрегулировав параллелизм тензоров и конвейеров.

 Источник изображений: Tenstorrent

Источник изображений: Tenstorrent

Как сообщает Tenstorrent, для DeepSeek V3 её четырёхузловые суперкластеры Blackhole Galaxy Supercluster могут обрабатывать запрос на 100 тыс. токенов — эквивалент 166 страниц текста — менее чем за четыре секунды. Tenstorrent заявила, что кластеры Galaxy Blackhole могут генерировать видео быстрее, чем в реальном времени, а также очень быстро генерировать токены LLM. Демонстрационные версии систем Tenstorrent настроены на обычный режим с генерацией текста с удобочитаемой скоростью, и режим Blitz, обеспечивающий максимально быструю обработку данных, подходящую для таких приложений, как генерация кода и агентный ИИ.

В режиме Blitz MoE-модель DeepSeek-671B обеспечивает «до 350 т/с на пользователя со временем получения первого токена менее 4 с», сообщила компания. Ресурс EE Times протестировал этот режим за несколько дней до официального запуска, получив 255 т/с на пользователя для коротких запросов в стиле чат-бота. Этот режим поддерживает пакетную обработку от 8 до 64 и длину контекста до 128 тыс токенов. Он работает на 16 серверах Galaxy (512 чипов) с использованием конвейерного параллелизма на этапе декодирования.

Компания отметила, что её системы не нуждаются в дезагрегации. «Мы можем выполнять и [предварительное заполнение, и декодирование] на одном узле, — сообщил генеральный директор Tenstorrent Джим Келлер (Jim Keller) изданию EE Times. — Мы создаём большой кластер, на котором можно запускать предварительное заполнение и декодирование LLM, генерацию видео, агентный ИИ… мы не специализируемся на чём-то одном. У нас много чипов, большой объём SRAM, но все чипы имеют DRAM, и все они тесно связаны между собой, поэтому наша платформа гораздо более универсальна».

Постоянный URL: http://servernews.ru/1140829

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;