Материалы по тегу: инференс
|
15.06.2026 [16:47], Владимир Мироненко
ByteDance ведёт переговоры о покупке китайских ИИ-ускорителей Iluvatar CoreX и BaiduByteDance, материнская компания TikTok, ведёт переговоры с шанхайской компанией Iluvatar CoreX о покупке ИИ-чипов, сообщило агентство Reuters со ссылкой на источники. В случае достижения договорённости, Iluvatar CoreX станет третьим крупным отечественным поставщиком GPU для ByteDance после Huawei и Cambricon, отметили источники агентства. По их данным, в этом году Iluvatar CoreX поставит ByteDance не менее 50 тыс. чипов, и большая часть из них будет использоваться для задач инференса, поскольку ByteDance стремится расширить клиентскую базу своего ИИ-чат-бота Doubao. Впрочем, переговоры ещё не завершены и окончательные условия сделки могут измениться. Кроме того, по данным источников Reuters, ByteDance, также рассматривает возможность использования ускорителей Baidu Kunlunxin. Раннее стало известно о разработке ByteDance собственных ИИ-чипов и закупке миллионов ИИ ASIC Qualcomm. По словам одного из источников, чипы Kunlunxin уже используются Tencent Cloud. Публикация агенства о возможных сделках в Китае свидетельствует о том, что выпуск китайскими производителями ИИ-чипов набирает обороты. Этому способствует поддержка властями использования разработанных на местном уровне чипов для повышения самодостаточности на фоне экспортного контроля США над передовыми чипами. Китайские производители GPU и чипов для ИИ в прошлом году заняли почти 41 % китайского рынка ИИ-серверов, на котором некогда доминировала NVIDIA. Рыночная доля американской компании в Китае, одном из важнейших для неё рынков, упала до нуля, утверждает глава NVIDIA Дженсен Хуанг (Jensen Huang). До сих пор Iluvatar CoreX в основном поставляла чипы для государственных закупок, сообщил один из источников. Поэтому сделка с ByteDance, одной из крупнейших китайских технологических компаний и крупным инвестором в ИИ-инфраструктуру, крайне важна для неё. Iluvatar CoreX вышла на Гонконгскую биржу в январе этого года. Её выручка в 2025 году составила ¥1 млрд ($148 млн), причём около 90 % продаж пришлось на GPU. Согласно информации на сайте компании, чипы серии Tiangai предназначены для ИИ-обучения, а чипы серии Zhikai — для задач инференса. По прогнозам Huatai Securities, выручка Iluvatar CoreX в этом году достигнет ¥3,04 млрд ($449,8 млн), а общий объём поставок превысит 100 тыс. чипов (рост год к году — на 139 %). По оценкам аналитиков, средняя цена чипов Zhikai составляет ¥12 тыс. ($1775)/шт.
09.06.2026 [13:58], Руслан Авдеев
AMD поддержит суверенный ИИ в Великобритании, инвестировав в ИИ-отрасль страны £2 млрд
amd
dell
epyc
hardware
hpc
instinct
великобритания
ии
инвестиции
инференс
суперкомпьютер
финансы
фотоника
В следующие пять лет AMD рассчитывает инвестировать в усиление ИИ-экосистемы Великобритании до £2 млрд ($2,7 млрд), создав новую инфраструктуру, программы совместных исследований и подготовки кадров. По словам представителя техногиганта, новая стратегия согласуется с правительственным проектом AI Opportunities Action Plan и стратегией AI Hardware Strategy, с основным акцентом на суверенные ИИ-возможности, научные вычисления и передовые исследования, сообщает Converge! Digest. Ключевой компонент инициативы — расширение вычислительной ИИ-инфраструктуры. AMD и Dell Technologies поддерживают две новые суперкомпьютерные системы в Кембриджском университете. Суперкомпьютер Zenith AI, финансирование которого осуществляется Министерством науки, инноваций и технологий (DSIT) и структурой UK Research and Innovation (UKRI), строится как платформа для использования ИИ в науке. Система Sunrise создаётся совместно с Управлением по атомной энергии Великобритании для поддержки исследований в сфере термоядерных технологий. Оба суперкомпьютера будут использовать ускорители AMD Instinct, процессоры EPYC и ПО AMD для решения задач в сфере здравоохранения, климатологии, материаловедения, разработки научных ИИ-моделей и др. Также AMD анонсировала исследовательские партнёрства с Имперским колледжем Лондона и компанией Oriole Networks. В первом случае взаимодействие сосредоточено на вычислительных дисциплинах, здравоохранении, моделировании климата, ИИ-оптимизации, обработке значительных объёмов данных и др. В то же время AMD и Oriole Networks принимают участие в проекте Scaling Inference Lab британского агентства ARIA (Advanced Research and Invention Agency). Проект стоимостью £50 млн направлен на устранение ряда проблем современной ИИ-инфраструктуры. Он объединяет фотонную сетевую архитектуру PRISM компании Oriole, ускорители AMD Instinct, а также процессоры EPYC для оценки новых подходов к масштабированию задач ИИ-инференса с меньшей задержкой и повышенной энергоэффективностью.
Источник изображения: Robert Bye/unsplash.com По словам Converge!, лондонский стартап Oriole Networks намерен преодолеть традиционные ограничения классических ИИ-кластеров. Если в стандартных сетях на основе InfiniBand или Ethernet многократные преобразования оптического сигнала в электрический и обратно создают дополнительные задержки, то архитектура PRISM (Photonic Routing Infrastructure for Scalable Models) заменяет активные электронные коммутаторы «пассивным» оптическим ядром маршрутизации. Прямые оптические соединения узлов позволяют сократить время простоя GPU, связанное с ожиданием обмена данными, что мешает масштабным ИИ-нагрузкам. PRISM обеспечивает обработку динамического ИИ-трафика без использования электрических буферов пакетов данных. Многомерная коммутация каналов позволяет перенастраивать соединения в режиме реального времени и оптимизировать сеть под интенсивный обмен данными, характерный для больших языковых моделей. Кроме того, Oriole утверждает, что её технология позволяет объединять до миллиона оконечных устройств. В конечном счёте сокращение энергопотребления сетевого ядра может составить до 81 %. Ключевым элементом архитектуры PRISM является независимость от конкретного типа используемых процессоров и ускорителей. Вместо использования проприетарных интерконнектов, «привязывающих» операторов к определённой аппаратной платформе, Oriole разделяет транспортный и вычислительный уровни инфраструктуры. Компания заявляет, что её технологии интегрируются в существующие стеки ПО через стандартные драйверы PCIe и специализированные библиотеки ускорения вроде NCCL для NVIDIA или RCCL для AMD. Благодаря этому можно поддерживать разные аппаратные платформы без трансформации базовых ИИ-фреймворков. Будущее внедрение технологии в рамках ARIA Scaling Inference Lab станет значимой проверкой её жизнеспособности для отрасли и продемонстрирует, способны ли полностью фотонные сети гарантировать предсказуемую производительность и обеспечивать открытость проприетарных вычислительных систем в промышленных масштабах.
08.06.2026 [15:33], Руслан Авдеев
Стартап Windrose Electric, разрабатывающий электрические грузовики, представил концепцию ИИ ЦОД на колёсах
hardware
автомобиль
аккумулятор
ии
инференс
контейнер
микро-цод
модульный
цод
электропитание
энергетика
Бельгийский стартап, занимающийся разработкой и выпуском электромобилей, представил концепцию контейнерных мобильных ЦОД. Ранее в этом году компания уже озвучила планы по созданию контейнерных ИИ- и энергетических решений на колёсах, которые можно будет легко доставлять туда, где они необходимы, с использованием её электрогрузовика с полуприцепом — R700, сообщает Datacenter Dynamics. Windrose Electric заявила о премьере новой продуктовой линейки «ИИ в коробке» для хранения электроэнергии, а также «модульного» решения для ИИ-инференса в отдельном контейнере. Сообщалось, что контейнер с вычислительным оборудованием может обеспечить инференс-нагрузки мощностью 500 кВт, а аккумуляторный контейнер способен хранить до 4 МВт·ч. Контейнерные дата-центры и соответствующая инфраструктура уже широко представлены в отрасли ИИ-решений, но обычно они перевозятся на крупных бортовых грузовиках с последующей разгрузкой, тогда как решения Windrose не предусматривают разгрузки и остаются в кузове или на колёсной платформе. Насколько практично подобное решение, пока не вполне понятно. Вычислительный модуль мощностью 500 кВт с питанием только от аккумуляторов ёмкостью 4 МВт·ч израсходует весь запас энергии в течение одного дня, после чего ему потребуется либо новое энергохранилище, либо подключение к внешнему источнику питания.
Источник изображения: Windrose Electric В этом месяце было объявлено, что Windrose работает с китайской энергетической компанией LiFe-Younger над мобильным контейнером для обеспечения ЦОД электроэнергией. В частности, сообщалось о планах разработать контейнерный аккумуляторный модуль с грузовиком-тягачом, обеспечивающим 2 МВт мощности в 20′ контейнере, который способен помочь справиться с нехваткой энергии в электросетях. В качестве энергетического модуля будет использоваться разработка iMContainer компании LiFe-Younger. Основанная в Китае в 2022 году, компания Windrose переместила штаб-квартиру в Бельгию и выпускает мощные электрические грузовики с большим запасом хода для коммерческой логистики. В настоящее время они способны проехать более 670 км без подзарядки с грузом массой 49 т. Основанная в 2016 году компания LiFe-Younger предлагает мобильные и стационарные решения для зарядки электромобилей и системы хранения энергии.
08.06.2026 [09:00], Владимир Мироненко
FirstVDS запустил vGPU-серверы на базе NVIDIA L40S и сравнил их с физическими GPU в реальных тестахПровайдер FirstVDS запустил тарифы с виртуальными GPU (vGPU) на базе NVIDIA L40S. Теперь в линейке два варианта: можно арендовать физическую видеокарту целиком (доступно с ноября 2025 года) или получить гарантированную долю виртуальной видеокарты. Компания также сравнила обе технологии в тестах и опубликовала результаты: скорость инференса LLM, генерацию видео и потребление видеопамяти. Доступны четыре тарифа vGPU — от 4 до 16 Гбайт видеопамяти. Технология vGPU делит физическую видеокарту на несколько профилей с фиксированной долей ресурсов. Серверы работают на виртуализации KVM с процессорами AMD EPYC. Стоимость — от 299 рублей в сутки. Для сравнения: тарифы с физическим GPU (Passthrough) стартуют от 1150 руб./сутки. В них доступны RTX 4090 и 5090, L4 и L40S — вся видеокарта полностью закрепляется за одной виртуальной машиной. За последние полгода спрос на GPU-серверы вырос кратно — в первую очередь из-за задач, связанных с LLM, генерацией изображений и видео. Но не каждому проекту нужна 100 % мощность физической карты. Разработчики, Data Science-команды и небольшие студии часто ищут более доступный вход с предсказуемой долей ресурсов. vGPU как раз закрывает этот запрос. Никита Попов, директор по продукту FirstVDS: «В ноябре мы закрыли потребность в сырой мощности, запустив GPU Passthrough. Но рынку нужен не только потолок производительности, но и адекватная юнит-экономика. vGPU закрывает именно этот сегмент — снижает порог входа до 300 руб. в сутки. Мы прогнали бенчмарки. Сравнивать виртуалку с выделенной картой в лоб бессмысленно — физика берет свое, чудес не бывает. Наша цель была другой: четко очертить границы применимости. Показать механику, при которой vGPU вытягивает нагрузку, и где проходит черта, за которой пора брать полноценное железо». Что показало тестированиеКомпания протестировала две конфигурации: GPU Passthrough (L40S, 48 Гбайт, 16 ядер CPU) и vGPU 16 Гбайт (8 ядер CPU). В сценариях использовались инференс LLM через llama.cpp (модели Qwen 2.5 и 3.6) и генерация видео через ComfyUI с шаблоном Wan2.2 TI2V 5B Hybrid. Результаты в целом предсказуемы: физическая карта ожидаемо обгоняет виртуальные GPU по производительности. Но обнаружилось два важных нюанса. Во-первых, при тестировании моделей среднего размера (qwen2.5-14b в двух вариантах квантизации — q3_k_m и q4_0) на vGPU-16 и Passthrough оказалось, что при полной загрузке модели в видеопамять скорость генерации токенов практически не отличается. Разница возникает только в смешанном режиме CPU+GPU (до 30–40 слоёв), где vGPU-16 сдерживает вдвое меньшее количество ядер процессора.
Сравнение скорости генерации токенов (qwen2.5-14b) в зависимости от количества слоёв, загруженных в GPU. Passthrough vs vGPU 16 Гбайт Во-вторых, более крупные модели (Qwen3.6-35B) в vGPU-16 полностью не загружаются — памяти не хватает, они работают только в смешанном режиме CPU+GPU со снижением скорости. Генерация видео (ComfyUI) на vGPU-16 тоже работает, но с оговорками: пришлось отключать часть функций и добавлять swap — иначе приложение аварийно завершалось. Время генерации на vGPU-16 ожидаемо выше, чем на Passthrough (для 5-секундного ролика — 293 с против 144). Таким образом, несмотря на общее преимущество физической карты, виртуальный GPU способен решать определённые задачи — например, инференс средних языковых моделей при полной загрузке в видеопамять. Это делает vGPU осмысленным выбором, когда важнее доступная цена. Для более тяжёлых сценариев (крупные модели, комфортная генерация видео без доработок) производительности vGPU может не хватить. Подробные результаты тестирования — в отдельной статье. О компанииFirstVDS — российский провайдер виртуальных серверов. В портфеле — готовые и гибкие конфигурации VPS/VDS: от высокопроизводительных CPU-серверов (линейка «CPU.Турбо 2.0» до 5,7 ГГц) до GPU-решений (Passthrough и vGPU). Также доступны S3-хранилище, домены, SSL и техподдержка 24/7. Дата-центры в Москве, Нидерландах и Казахстане. Более 20 лет на рынке.
03.06.2026 [13:49], Владимир Мироненко
Новые Arm-инстансы Azure Cobalt 200 оптимизированы для ИИ-агентов и в полтора раза быстрее ВМ Azure Cobalt 100Microsoft объявила о доступности предварительной версии Arm-инстансов Azure Cobalt 200, разработанных с нуля для масштабируемых, облачно-ориентированных и основанных на Linux ИИ-нагрузок с использованием агентов и обеспечивающих до 50 % более высокую производительность по сравнению с Cobalt 100. Компания сообщила, Cobalt 200 объединил её новейшие разработки — от «кремния» до серверов и сервисов — в области безопасности, сетей, хранения данных и разгрузки, что позволяет превосходить традиционные вычислительные решения на базе Arm. Совместная оптимизация аппаратного и программного обеспечения позволяет расширять возможности масштабирования, повышать безопасность и снижать затраты при использовании ИИ-инференса, конвейеров передачи данных, а также веб-сервисов и API, обеспечивающих работу современных сервисов. Microsoft отметила, что агенты отличаются от традиционных рабочих нагрузок тем, что они рассуждают, принимают последовательные решения и непрерывно работают в больших масштабах, что требует принципиально иного профиля вычислений. Cobalt 200 создан именно для этой среды и обеспечивает 50-% прирост производительности для таких нагрузок, делая агентов более быстрыми, функциональными и экономически эффективными в масштабах предприятия. Его предшественник, Cobalt 100, доступен в 32 регионах ЦОД Azure по всему миру. Такие компании, как Databricks и Snowflake, используют Cobalt 100 для оптимизации своей облачной инфраструктуры, а такие клиенты, как Amadeus, OneTrust, Siemens, Sprinklr и Temenos, добились значительного повышения производительности и эффективности, сообщила Microsoft. На собственных облачных сервисах компании ВМ Azure Cobalt 100 обеспечивают повышение производительности до 45 % при использовании на 35 % меньшего количества вычислительных ядер по сравнению с предыдущей вычислительной платформой. Microsoft Defender for Endpoint (MDE) продемонстрировал повышение производительности на 40 % в своём инструменте управления данными. Ключевые преимущества инстансов Cobalt 200:
Компания отметила, что Cobalt 200 обеспечивает производительность на ядро и масштабируемость, необходимые для современных нагрузок агентного ИИ. Каждое ядро Cobalt 200 представляет собой полноценное физическое ядро, дополненное ёмким L2-кешем и повышенной пропускной способностью памяти на ядро. Эти конструктивные особенности обеспечивают более высокую изоляцию и стабильную производительность под нагрузкой, что позволяет агентным рабочим нагрузкам размещать больше песочниц агентов в одной виртуальной машине, одновременно удовлетворяя требованиям к задержке и пропускной способности.
Инстансы Cobalt 200 обеспечивают значительное улучшение по сравнению с Cobalt 100 в наиболее важных для продуктовой среды рабочих нагрузках, в том числе рост производительности до 135 % для облачных баз данных, до 40 % — для веб-серверов, до 45 % — для задач шифрования связи и до 80 % — для нагрузок кеширования. Инстансы Cobalt 200 полностью совместимы с инстансами Cobalt 100, что делает миграцию бесшовной. Основные платформы и языки программирования для разработчиков, включая C++, .NET, Java, Python и Rust, уже предлагают версии, разработанные специально для Arm. В числе собственных сервисов Microsoft, использующих ВМ Cobalt 200 — Dataverse и базы данных Azure. Напомним, что ранее Google объявила, что портировала около 30 тыс. внутренних нагрузок на Arm-архитектуру с использованием собственных Arm-чипов Axion и планирует перенести ещё порядка 70 тыс. В свою очередь, Oracle ещё несколько лет назад завершила миграцию всех своих облачных сервисов на Arm, как и AWS, также получившая заказы на поставку Graviton от Snowflake, Anthropic и Meta✴. Microsoft отметила, что запуск инстансов Cobalt 200 позволил ей расширить портфель Arm-инстансов для поддержки более широкого набора рабочих нагрузок. Если на базе Cobalt 100 предлагаются семейства ВМ общего назначения (Dp, Dpl) и оптимизированные по памяти (Ep), то Cobalt 200 позволил добавить ещё два семейства инстансов: Mpsv4 с увеличенным объёмом памяти и Lpsv5 с плотным локальным хранилищем. Новинки уже доступны в формате предварительных версий. Инстансы будут доступны в следующих регионах: West US3, East US2, Central US, Sweden Central, East US, West US2, Spain Central и Indonesia Central. Об их доступности в других регионах будет объявлено позже.
02.06.2026 [17:57], Владимир Мироненко
Intel с партнёрами разработает эталонный дизайн ИИ-стоек с чипами Xeon для ODM- и OEM-производителей
clearwater forest
foxconn
granite rapids
hardware
intel
nvidia
odm
oem
sambanova systems
xeon
ии
инференс
стойка
Intel совместно с SambaNova и Foxconn объявила о намерении создать референс-дизайн стоечной ИИ-инфраструктуры на базе процессоров Intel Xeon для ЦОД, гиперскейлеров и центров интеллектуального управления. Как сообщает The Register, подход основан на ранее разработанной Intel совместно с SambaNova концепции дезагрегированного ИИ. Архитектура распределяет ресурсоёмкие операции предварительного заполнения между ускорителями NVIDIA, используя чипы SambaNova для ресурсоёмких операций декодирования, что позволяет увеличить выход токенов для каждого пользователя в 2–3 раза. Генеральный директор Intel Лип-Бу Тан (Lip-Bu Tan) представил два примера таких проектов. Один предназначен для агентных нагрузок, чувствительных к задержкам, а другой — для обеспечения максимальной плотности вычислений. Обе конфигурации поддерживают до 128 процессоров Intel: либо 128-ядерных Granite Rapids-AP, либо 288-ядерных Clearwater Forest, что в сумме составляет от 16 384 P-ядер до 36 864 E-ядер, а также до 384 Тбайт DDR5 при энергопотреблении 100 кВт. Тан сообщил, что системы на основе этого референс-дизайна будут широко доступны у ODM- и OEM-партнёров компании. В рамках сотрудничества Foxconn предоставит возможности системной интеграции для новой стоечной ИИ-инфраструктуры. Компания также планирует выпускать вариант стоечной инфраструктуры с высокой плотностью процессоров для рабочих нагрузок, не требующих дополнительного ускорения, включая оптимизированные по стоимости задачи инференса, обработку данных и гибридный ИИ. Intel объявила, что облачный провайдер Vector Core Compute, созданный Vista Equity Partners и Cambium Capital, станет одним из первых, кто развернёт эту платформу, а Together.AI — её первым коммерческим клиентом. Также на выставке Computex 2026 компании Intel, SambaNova, Vista Equity Partners и Cambium Capital представили первую реальную демонстрацию дезагрегированной системы инференса, использующей процессоры Intel Xeon 6 для оркестрации, блоки RDU SambaNova SN40 для декодирования и NVIDIA Blackwell для предварительного заполнения, работающую в ЦОД Vector Core Compute в Лос-Анджелесе. Напомним, что ранее NVIDIA объявила о запуске аналогичной стоечной платформы, включающей 256 88-ядерных процессоров Vera, ускорители Rubin и LPU Groq 3. Arm также работает над парой референс-дизайнов стоечных систем для агентных рабочих нагрузок на основе своих новых процессоров Arm AGI: 36-кВт системой с воздушным охлаждением и 8160 ядрами, а также 200-кВт системой с жидкостным охлаждением и 45 696 ядрами.
02.06.2026 [01:04], Владимир Мироненко
ИИ-ускоритель Intel Crescent Island получит до 480 Гбайт LPDDR5XIntel сообщила новые подробности о своём будущем ИИ-ускорителе для ЦОД с кодовым именем Crescent Island, который был анонсирован в прошлом году. Новый GPU основан на архитектуре Xe3P, представляющей усовершенствованную версию Xe3, которая используется в процессорах Core Ultra 300 семейства Panther Lake. Ожидается, что Xe3P также будет использоваться в GPU Intel серии Arc-C для клиентских устройств. Компания отметила, что чип разработан специально для рабочих нагрузок агентного ИИ. В то время как традиционные ИИ-ускорители от NVIDIA и AMD полагаются на дорогую память HBM, в новом чипе Intel используется LPDDR5X, и он предназначен для работы в серверах с воздушным охлаждением, а не с жидкостным. Crescent Island будет поддерживать до 480 Гбайт памяти LPDDR5X, хотя базовая эталонная конфигурация рассчитана на 160 Гбайт. Intel заявила, что Crescent Island оптимизирован по производительности на Вт — до TDP 350 Вт в версии с воздушным охлаждением и интерфейсом PCIe. Сообщается, что GPU будет поддерживать широкий спектр форматов данных от FP4 до FP64, а также полностью открытый программный стек oneAPI, что идеально подходит для поставщиков услуг «токены как услуга» и сценариев использования для инференса. Концептуально новинка напоминает Rubin CPX, от которого NVIDIA отказалась. Intel уже оценивает свой открытый унифицированный программный стек для гетерогенных систем ИИ с помощью существующей линейки Arc Pro B-серии, поэтому будущие версии чипов получат доступ к этим оптимизациям на ранних этапах. Intel планирует начать тестирование GPU Crescent Island для клиентов во II половине 2026 года с общей доступностью в 2027 году.
01.06.2026 [12:15], Сергей Карасёв
ADATA представила решение TRUSTA AI Scaler Extended Memory Solution для расширения памяти в ИИ-системахБренд TRUSTA, принадлежащий компании ADATA Technology, анонсировал программно-аппаратную платформу AI Scaler Extended Memory Solution. Она нацелена на решение проблемы нехватки памяти в ускорителях на базе GPU в таких сценариях, как ИИ-инференс и точная настройка больших языковых моделей (LLM). По оценкам аналитиков, мировой рынок ИИ-инфраструктур будет расти в среднем на 26 % в год до 2034-го. Причём ИИ-нагрузки всё чаще переносятся из традиционных облаков в локальный контур и на периферию. При таких подходах компаниям приходится решать вопросы, связанные с конфиденциальностью данных, соответствием нормативным требованиям и оптимизацией затрат. Новая архитектура TRUSTA призвана помочь организациям уменьшить расходы при внедрении ИИ в собственной среде. В отличие от традиционных ИИ-систем, которые полностью полагаются на память GPU-ускорителей, платформа TRUSTA AI Scaler Extended Memory Solution, как и Phison aiDAPTIV+, предполагает распределение нагрузки между памятью GPU, DRAM и SSD-накопителями, что позволяет более эффективно использовать доступные ресурсы. Утверждается, что задачи инференса, которые обычно требуют наличия нескольких GPU-карт, могут быть оптимизированы для работы на одном ускорителе в сочетании с использованием других типов памяти. При этом нагрузки динамически перераспределяются между высокоскоростной памятью GPU, оперативной памятью и твердотельными накопителями. В результате, как отмечается, затраты на развёртывание ИИ могут быть снижены более чем на 50 % по сравнению с обычными инфраструктурами.
Источник изображения: ADATA Для новой программно-аппаратной платформы создан набор инструментов TRUSTA AI Scaler Toolkit. Это бесплатный продукт с открытым исходным кодом, не привязанный к конкретным аппаратным конфигурациям. С его помощью компании, исследовательские организации и независимые разработчики смогут настраивать ресурсы в соответствии со своими потребностями и выполняемыми задачами. Заявлена совместимость с такими LLM, как Llama, Qwen, Mistral, Mixtral, GPT-OSS, DeepSeek, Phi и Gemma, а дальнейшем список будет расширяться. Кроме того, поддерживаются различные приложения для ИИ-агентов, включая OpenClaw, NemoClaw и Hermes Agentic. Набор инструментов TRUSTA AI Scaler Toolkit уже доступен для загрузки. Кроме того, TRUSTA представила SSD корпоративного класса TD7P51 ECO с интерфейсом PCIe 5.0. Он имеет вместимость до 15,36 Тбайт. Заказчикам будут предлагаться варианты в трёх форм-факторах — U.2, E1.S и E3.S.
01.06.2026 [10:00], Руслан Авдеев
Ampere Computing: экстремальная жара в мире потребует больше энергии, повышения эффективности вычислений и сокращения количества ЦОД
ampere
arm
hardware
дефицит
ии
инференс
метео
охлаждение
прогноз
цод
экология
энергетика
энергоэффективность
Наступившее лето обещает быть чрезвычайно жарким, похожим на прошлогоднее, когда среднемировая температура достигла исторического максимума. Жара и засухи вынуждают индустрию и власти принимать трудные решения на фоне растущего расширения ЦОД, сообщил директор по продуктам Ampere Computing Джефф Виттич (Jeff Wittich). Согласно прогнозу AccuWeather на 2026 год, счета за электричество могут взлететь текущим летом из-за вероятной повсеместной жары по всей территории США. По оценкам отвечающей за надёжность электроснабжения в стране North American Electric Reliability Corporation, летний пиковый спрос на энергию вырастет на 224 ГВт за следующие 10 лет. Это более чем на 69 % выше прогноза 2024 года и на 24 % — пикового спроса 2025-го. В первую очередь ожидаемый рост спроса обусловлен потреблением электричества новыми ЦОД. В 2023 году в США дата-центры потребляли 4,4 % всей электроэнергии, а к 2028 году будут потреблять 12 %. Из-за роста спроса на электричество многим странам пришлось ужесточить правила для снижения нагрузки на энергосистемы и население. Во многом проблема в том, что энергосистемы не справляются с колебаниями энергопотребления в связи с экстремальной погодой. В июле прошлого года сообщалось, что аномальная жара привела к сбоям в лондонских дата-центрах Google и Oracle. Более того, согласно исследованию Rest of World, около 80 % всех дата-центров в мире построены в не особенно подходящих для них климатических условиях. Так, в 2025 году в США было внесено более 200 законопроектов, направленных на регулирование работы ЦОД, и по меньшей мере в 18 штатах предложены специальные тарифы для крупных потребителей электричества, а в Мэне предпринята пока не увенчавшаяся успехом попытка вовсе запретить строительство новых ЦОД. В некоторых законопроектах от желающих строить ЦОД требуют инвестиций в модернизацию инфраструктуры и обеспечение преимуществ для рядовых потребителей энергии.
Источник изображения: Ant Rozetsky/unsplash.com В 2025 году в Амстердаме продлили мораторий на строительство новых ЦОД и расширение в столичном муниципалитете уже действующих. Приоритет отдан жилью, а новые дата-центры появятся не раньше 2030 года. Во Франкфурте на ЦОД приходится до 40 % от всего потребления городской агломерации, что создаёт непосильную нагрузку местной энергосистеме. В некоторых районах введены временные моратории на подключение новых «индустриальных» объектов, строительство новых не ожидают до II квартала 2027 года. В условиях развития ИИ-проектов дефицит ресурсов будет всё ощутимее. Поддержать этот рост без ущерба окружающей среде можно, повысив эффективность вычислений каждого отдельного ЦОД. Это позволит строить меньше дата-центров для удовлетворения спроса на вычисления или уменьшать их сами по себе, чтобы снизить энергопотребление. Кроме того, потребуется модернизация систем охлаждения. Пока же бум ИИ подталкивает отрасль к экстенсивному развитию, тогда как необходимо максимизировать реальную производительность не только на уровне чипов, но и на остальных уровнях тоже. Для этого необходимы более энергоэффективные чипы, чем сейчас. Виттич подчёркивает, что мощные ИИ-ускорители на основе GPU стоит использовать только там, где это действительно необходимо. Если для обучения и масштабного инференса без них не обойтись, то для многих других задач они избыточны. Оптимизируя вычисления для каждой задачи, следует использовать энергоёмкую инфраструктуру только там, где это действительно необходимо.
Источник изображения: Peter Herrmann/unsplash.com Более эффективные системы охлаждения необходимо использовать независимо от снижения энергопотребления. При этом рекомендуется сочетать разные варианты охлаждения. Например, жидкостное всё чаще используется с энергоёмким ИИ-оборудованием. К сожалению для операторов ЦОД, модернизация систем охлаждения требует серьёзного изменения инфраструктуры, а на старых объектах модернизация сложна и дорога или вовсе невозможна. В существующих ЦОД нередко выгоднее использовать маломощные чипы с воздушным охлаждениями, размещая новые компоненты только там, где они действительно нужны. Фактически это означает переосмысление вычислительных архитектур для получения максимальной производительности на ватт за счёт использования современных чипов. Кроме того, придётся перераспределить рабочие нагрузки и проектировать системы, в которых производительность соответствует требованиям к допустимому тепловыделению и энергосбережению. В конечном итоге, чем больше вычислительных возможностей можно «извлечь» из каждого Вт и м2, тем меньше ЦОД нужно будет строить в будущем. Чем меньше ЦОД придётся строить, тем ниже нагрузка на водные и энергетические ресурсы в конкретных локациях. По словам представителя Ampere, для удовлетворения растущих энергетических потребностей потребуется не просто расширять инфраструктуру, но и оптимизировать её, начиная с вычислительных мощностей. И хотя Виттич прямо об этом не говорит, Ampere видит себя как раз-таки поставщиком энергоэффективных чипов, в том числе CPU для инференса. Однако на практике компания задержала выпуск AmpereOne M, была продана SoftBank и рискует лишиться одного из крупнейших заказчиков в лице Oracle, которая весьма заинтересована в NVIDIA Vera. Ей же приходится конкурировать с собственными Arm-процессорами AWS, Google, Microsoft и Alibaba, а также теперь уже и с самой Arm, Fujitsu и Qualcomm.
31.05.2026 [00:34], Владимир Мироненко
Snowflake потратит $6 млрд на чипы AWS, в том числе на Arm-процессоры GravitonКомпания Snowflake, специализирующаяся на облачных решениях для обработки данных с использованием ИИ, объявила о заключении пятилетнего соглашения о стратегическом сотрудничестве (SCA) с AWS, в рамках которого обязалась потратить $6 млрд на многолетние инфраструктурные проекты, включая использование серверных Arm-процессоров Amazon Graviton, а также ИИ-ускорителей. Компании не раскрывают, о каком поколении Graviton идёт речь, сообщает The Next Web. Для оценки, насколько крупной является сделка для компаний, ненамного больше — около $7 млрд — Snowflake получила выручки от своих сервисов через AWS Marketplace с момента основания компании в 2012 году. В 2020 году Snowflake объявила о пятилетнем облачном контракте с AWS на сумму $1,2 млрд, который впоследствии был увеличен до $2,5 млрд в 2023 году. Эта эволюция иллюстрирует растущую важность облачной инфраструктуры в развитии ИИ. Только в 2025 году расходы Snowflake на услуги AWS составили $2 млрд. За последние несколько лет Snowflake перевела большую часть вычислительных ресурсов с процессоров Intel и AMD на инстансы на базе Graviton, отметил The Register. Согласно соглашению, Snowflake будет запускать и обучать свои модели и сервисы генеративного ИИ, используя комбинацию ускорителей, работающих в AWS, и Graviton. Сделка также отражает собственный рост Snowflake: в среду компания опубликовала финансовые результаты за I квартал 2027 финансового года, закончившийся 30 апреля, которые значительно превзошли прогнозы Уолл-стрит. Компания сообщила о скорректированной прибыли в 39 центов на акцию при выручке в $1,39 млрд (+33 % г/г). Аналитики, опрошенные LSEG, прогнозировали 32 цента на акцию прибыли и выручку в $1,32 млрд (по данным CNBC). Прогноз компании на текущий квартал также был оптимистичным. Snowflake прогнозирует во II финансовом квартале скорректированную операционную маржу на уровне 12,5 % при выручке в размере от $1,415 до $1,420 млрд. Прогноз аналитиков, опрошенных StreetAccount, по операционной марже составляет 11,9 %, по выручке от продажи продуктов — $1,37 млрд. После объявления о финансовых результатах и сделке с AWS акции Snowflake подскочили примерно на 38 %. Обязательство Snowflake запускать свои облачные рабочие нагрузки на Graviton в масштабе является важным подтверждением жизнеспособности концепции Arm-серверов, которая незаметно меняет экономику облачной инфраструктуры уже пять лет, отметил The Next Web. Сделка подчёркивает растущую роль Arm-процессоров в ЦОД. IDC считает, что инвестиции Snowflake в AWS отражают то, как быстро корпоративные рабочие нагрузки ИИ адаптируются к потребностям долгосрочной инфраструктуры, пишет Data Center Knowledge. В ISG отмечают, что соглашение указывает на более широкий переход от экспериментальных развертываний ИИ к более долгосрочному спросу на инфраструктуру. Соглашение предоставляет Snowflake доступ к чипам AWS Graviton в то время, когда вычислительные мощности для ИИ ограничены, отметил ресурс GuruFocus. Оно также приближает инструменты Snowflake для хранения данных, аналитики и ИИ к AWS, где многие из её клиентов уже запускают свои рабочие нагрузки. Это важно для Snowflake, поскольку инвесторы опасались, что ИИ может навредить бизнесу традиционных компаний-разработчикой ПО, а не помочь им. Это обновление изменило ситуацию на Уолл-стрит. Snowflake заявила, что растёт спрос на такие инструменты, как Cortex Code и Snowpark, которые помогают компаниям создавать приложения ИИ и модели машинного обучения, используя собственные данные. Например, предлагаемая уже несколько лет Snowflake платформа Cortex AI может преобразовывать естественный язык в SQL-запросы, обобщать данные и проводить анализ настроений. Что касается AWS, то сделка с Snowflake продолжила серию крупных инвестиций в ИИ-инфраструктуру. Anthropic взяла на себя крупные многолетние обязательства перед AWS; OpenAI в начале этого года подписала значимое соглашение с AWS, несмотря на продолжающееся сотрудничество с её конкурентом Microsoft Azure. В прошлом месяце AWS заключила соглашение с Meta✴ о поставке миллионов чипов Graviton для удовлетворения растущих потребностей компании в вычислительных мощностях для ИИ. Это стало большой победой для AWS, поскольку несколькими месяцами ранее Meta✴ заключила сделку с Google Cloud на $10 млрд. |
|
