Материалы по тегу: cxl
|
04.11.2025 [16:35], Сергей Карасёв
SK hynix разрабатывает AI-D — память для устранения узких мест в ИИ-системахКомпания SK hynix, по сообщению ресурса Blocks & Files, проектирует память нового типа AI DRAM (AI-D) для высокопроизводительных ИИ-платформ. Изделия нового типа будут предлагаться в трёх модификациях — AI-D O (Optimization), AI-D B (Breakthrough) и AI-D E (Expansion), что, как ожидается, позволит устранить узкие места современных систем. SK hynix является одним из лидеров рынка памяти HBM (Hgh Bandwidth Memory) для ИИ-ускорителей. Однако достижения в данной сфере отстают от развития GPU, из-за чего возникает препятствие в виде «стены памяти»: наблюдается разрыв между объёмом и производительностью HBM и вычислительными возможностями ускорителей. Проще говоря, GPU простаивают в ожидании данных. Одним из способов решения проблемы является создание кастомизированных чипов HBM, предназначенных для удовлетворения конкретных потребностей клиентов. Вторым вариантом SK hynix считает выпуск специализированной памяти AI-D, спроектированной для различных ИИ-нагрузок. В частности, вариант AI-D O предполагает разработку энергосберегающей высокопроизводительной DRAM, которая позволит снизить общую стоимость владения ИИ-платформ. Для таких изделий предусмотрено применение технологий MRDIMM, SOCAMM2 и LPDDR5R. Продукты семейства AI-D B помогут решить проблему нехватки памяти. Такие изделия будут отличаться «сверхвысокой ёмкостью с возможностью гибкого распределения». Упомянуты технологии CMM (Compute eXpress Link Memory Module) и PIM (Processing-In-Memory). Это означает интеграцию вычислительных возможностей непосредственно в память, что позволит устранить узкие места в перемещении данных и повысить общее быстродействие ИИ-систем. Ёмкость AI-D B составит до 2 Тбайт — в виде массива из 16 модулей SOCAMM2 на 128 Гбайт каждый. Причём память отдельных ускорителей сможет объединяться в общее адресное пространство объёмом до 16 Пбайт. Любой GPU сможет заимствовать свободную память из этого пула для расширения собственных возможностей по мере роста нагрузки. Наконец, архитектура AI-D E подразумевает использование памяти, включая HBM, за пределами дата-центров. SK hynix планирует применять DRAM в таких областях, как робототехника, мобильные устройства и платформы промышленной автоматизации.
30.09.2025 [20:43], Владимир Мироненко
Zhaoxin представила серверный x86-процессор KH-50000: 96 ядер без SMT и 12 каналов DDR5-5200Китайская компания Zhaoxin объявила о выходе серверного процессора нового поколения KH-50000 на x86-совместимой архитектуре Zhaoxin Century Avenue, анонсированного в июле этого года. Новинка предназначена для обеспечения выполнения широкого круга задач, включая обработку ИИ-нагрузок, облачные вычисления и Big Data. KH-50000 представлен в двух вариантах: с 72 и 96 ядрами. Чип имеет размеры 72 × 76 мм. Используется чиплетная компоновка с массивным IO-кристаллом и четырьмя вычислительными кластерами, содержащими по три чиплета каждый. Каждый чиплет содержит до 8 ядер и 32 Мбайт кеша L3 — итого 96 ядер и 384 Мбайт кеша L3. KH-50000 поддерживает 32- и 64-бит инструкции x86, включая SSE4.2, AVX и AVX2. Также реализована поддержка виртуализации, но нет поддержки SMT. 96-ядерный вариант KH-50000 поддерживает тактовую частоту 2,2 ГГц и 3,0 ГГц в режиме Boost. У 72-ядерного чипа базовая тактовая частота составляет 2,6 ГГц и 3,0 ГГц в режиме Boost. Данных о TDP нет. KH-50000 поддерживает масштабирование 2S и 4S, что позволяет увеличить количество ядер до 384 на сервер. Для межчипового взаимодействия используется интерфейс ZPI 5.0 (Zhaoxin Processor Interconnect) собственной разработки. Процессор поддерживает до 12 каналов DDR5-5200 ECC RDIMM, что позволяет использовать в общей сложности до 3 Тбайт памяти, в отличие от 2 Тбайт DDR4-3200 у предшественника KH-40000. Также сообщается о наличии 128 линий PCIe 5.0 совместимых с ZPI/CXL и 16 линий PCIe 4.0 по сравнению со 128 линиями PCIe 3.0 в KH-40000. Количество портов SATA и USB несколько уменьшилось по сравнению с KH-4000, но теперь реализована поддержка спецификации USB 3.2 Gen2 (четыре порта). Также указана поддержка 12 портов SATA III. Как отметил ресурс Tom's Hardware, в соответствии с требованиями безопасности Китая KH-5000 поддерживает фирменные стандарты шифрования SM2, SM3 и SM4. В частности, Zhaoxin интегрировала в KH-50000 чип четвёртого поколения от National Technology (вероятно, NS350). Этот чип соответствует требованиям безопасности китайского стандарта криптографических модулей GM/T 0012-2020 и международному стандарту TPM 2.0 (SPEC 1.59).
30.09.2025 [15:12], Сергей Карасёв
Samsung готовит SSD вместимостью 512 Тбайт с интерфейсом PCIe 6.0На мероприятии Global Memory Innovation Forum (GMIF) 2025 в Шэньчжэне (Китай) сразу несколько крупных компаний поделились планами по разработке SSD с интерфейсом PCIe 6.0, предназначенных для дата-центров и корпоративных инфраструктур. В частности, Samsung работает над продуктами CMM-D с CXL 3.1 и PCIe 6.0, выпуск которых запланирован на следующий год. Дебютируют SSD семейства PM1763 с интерфейсом PCIe 6.0, которые, по утверждениям южнокорейского производителя, обеспечат вдвое большую производительность и значительно более высокую энергоэффективность по сравнению с нынешними накопителями. Энергопотребление заявлено на уровне 25 Вт. Ориентировочно в 2027 году Samsung планирует выпустить SSD с интерфейсом PCIe 6.0 вместимостью до 512 Тбайт. Такие устройства будут предлагаться в форм-факторе EDSFF 1T. Кроме того, компания готовит флеш-память Z-NAND седьмого поколения с технологией GIDS (GPU-Initiated Direct Storage Access), которая позволит ИИ-ускорителям напрямую обращаться к устройствам хранения Z-NAND, минуя CPU и RAM. В свою очередь, Silicon Motion раскрыла дополнительную информацию о контроллере SM8466 с поддержкой PCIe 6.0, о разработке которого стало известно в январе нынешнего года. Это изделие обеспечит скорость последовательной передачи данных до 28 Гбайт/с и величину IOPS до 7 млн. Новый контроллер позволит создавать SSD ёмкостью до 512 Тбайт. Производиться решение будет на предприятии TSMC по 4-нм технологии. Выпуск первых SSD корпоративного класса на основе SM8466 намечен на 2026 год.
Источник изображения: Silicon Motion via Wccftech Накопители PCIe 6.0 также проектирует InnoGrit. Эта компания в 2026-м намерена представить устройства, у которых показатель IOPS (операций ввода/вывода в секунду) будет достигать 25 млн.
20.09.2025 [01:40], Владимир Мироненко
NVIDIA купила за $900 млн разработчика интерконнекта для ИИ-платформ EnfabricaСогласно публикациям CNBC и The Information, NVIDIA заключила сделку с разработчиком интерконнекта для ИИ-систем Enfabrica стоимостью $900 млн, чтобы лицензировать ряд его технологий, а также переманить его гендиректора и ключевых сотрудников. Оплата сделки, завершённой на прошлой неделе, производилась собственными средствами NVIDIA и её акциями. Глава Enfabrica Рочан Санкар (Rochan Sankar) уже присоединился к команде NVIDIA. Спрос на вычислительные мощности для поддержки генеративного ИИ со стороны таких компаний, как OpenAI, Anthropic, Mistral, AWS, Microsoft и Google, ставит перед NVIDIA сложную задачу: как создать унифицированный, отказоустойчивый GPU-кластер, способный справиться с такими огромными нагрузками. Решения Enfabrica, основанной в 2019 году, призваны решить эту задачу. Как пишет Network World со ссылкой на аналитиков, NVIDIA считает интеграцию технологий Enfabrica критически важной для повышения эффективности своих кластеров в обучении новейших ИИ-моделей. Во всяком случае, Enfabrica утверждает, что её технология позволяет бесшовно объединить более 100 тыс. ускорителей в единый кластер. Кроме того, к ускорителям можно добавить CXL-пулы DRAM/SSD. «Используя SuperNIC и фабрику Enfabrica, NVIDIA может ускорить передачу данных в кластерах, обойти текущие ограничения масштабирования сетевых фабрик и снизить зависимость от дорогостоящей памяти HBM», — отметила Рачита Рао (Rachita Rao), старший аналитик Everest Group, имея в виду чип ACF-S, разработанный для обеспечения более высокой пропускной способности, большей отказоустойчивости, меньшей задержки и лучшего программного управления для операторов ЦОД, работающих с ресурсоёмкими ИИ-системами и HPC. Enfabrica утверждает, что ACF-S более отказоустойчив в сравнении с традиционным интерконнектом, поскольку заменяет двухточечные соединения GPU многопутевой архитектурой, которая снижает перегрузку, улучшает распределение данных и гарантирует, что сбои в работе GPU не приведут к остановке процесса вычислений. По мнению Чарли Дая (Charlie Dai), главного аналитика Forrester, для NVIDIA также представляет интерес технология EMFASYS, позволяющая дать ИИ-серверам доступ к внешним пулам памяти. По словам Дая, сочетание ACF-S и EMFASYS может помочь NVIDIA добиться более высокой загрузки GPU и снижения совокупной стоимости владения (TCO) — ключевых показателей для гиперскейлеров и разработчиков LLM. Как сообщает Blocks & Files, Enfabrica привлекла в общей сложности $290 млн венчурного финансирования: $50 млн в раунде A в размере $50 млн в 2022 году при оценке в $50 млн; $125 млн в раунде B в 2023 году с оценкой в размере $250 млн; $115 млн в раунде C в 2024 году. По данным Pitchbook, оценочная стоимость компании сейчас составляет около $600 млн. NVIDIA инвестировала в компанию в раунде B. На этой неделе NVIDIA также объявила об инвестициях в Intel в размере $5 млрд в рамках совместной разработки специализированных чипов для ЦОД и ПК. Квазислияния получили широкое распространение в Кремниевой долине, поскольку позволяют обойти препоны регуляторов. В начале этого года Meta✴ приобрела за $14,3 млрд 49 % акций Scale AI, переманив его основателя Александра Ванга (Alexandr Wang) вместе с ключевыми сотрудниками. Месяц спустя Google объявила о похожем соглашении с ИИ-стартапом Windsurf, в рамках которого его соучредитель и гендиректор Варун Мохан (Varun Mohan) перешёл вместе с рядом сотрудников в подразделение Google DeepMind. Аналогичные сделки были в прошлом году у Google с Character.AI, Microsoft с Inflection AI и у Amazon с Adept.
12.09.2025 [11:29], Сергей Карасёв
PCIe по оптике: Macom представила чипсет, увеличивающий длину соединений PCIe 6.0 до 100 мКомпания Macom Technology Solutions анонсировала новый чипсет, который, как утверждается, позволяет преодолеть существующие ограничения по длине соединений PCIe 6.0 и CXL (Compute Express Link). Изделие обеспечивает возможность высокоскоростной передачи данных с малой задержкой на большие расстояния по паре оптических волокон. Чипсет объединяет трансимпедансный усилитель (TIA) MATA-38794 и драйвер VCSEL MALD-38795. Достигается скорость передачи данных в 64 Гбит/с (PAM4) по восьми линиям PCIe. Протяженность соединений PCIe 6.0 при использовании многомодового оптоволоконного кабеля составляет до 100 м. Подчёркивается, что компоненты MATA-38794 и MALD-38795 обеспечивают масштабируемое и прозрачное подключение посредством PCIe, отвечающее требованиям современных вычислительных сред. Кроме того, новое изделие поддерживает передачу по дополнительному оптоволокну критически важных сигналов, включая сигналы синхронизации, сброса и пробуждения, а также USB и Ethernet. Это, как подчёркивается, «обеспечивает полную прозрачность шины PCIe на больших расстояниях». Чипсет предназначен для формирования платформ дезагрегированных вычислений для задач ИИ и НРС. В отличие от традиционных серверных архитектур, основанных на интегрированном оборудовании и многоуровневых сетевых протоколах, дезагрегированные системы используют оптический интерконнект для прямого подключения ресурсов. Благодаря этому снижается задержка, уменьшается энергопотребление и достигается гибкое масштабирование. Интерфейс PCIe позволяет формировать высокоскоростные соединения типа GPU–GPU и CPU–память.
08.08.2025 [10:44], Сергей Карасёв
Стартап Xcena представил вычислительную память MX1 с поддержкой PCIe 6.0 и CXL 3.2Южнокорейский стартап Xcena анонсировал свой первый продукт — вычислительную память MX1. Избранные партнёры начнут получать образцы изделий с октября, тогда как массовое производство запланировано на 2026 год. Решение MX1 обладает поддержкой PCIe 6.0 и CXL 3.2. Новинка позволяет расширить основную память системы, добавив до 1 Тбайт в виде четырёх модулей DDR5 DIMM ёмкостью 256 Гбайт каждый. Реализована технология NDP (Near Data Processing), которая сводит к минимуму задержку при перемещении данных между интерфейсами и значительно снижает совокупную стоимость владения для приложений, требующих обработки больших объемов информации. Для выполнения вычислений в оперативной памяти используются «тысячи ядер» на открытой архитектуре RISC-V. Изделия MX1 позволяют существенно ускорить выполнение таких задач, как операции с векторными и графовыми базами данных, анализ информации и пр. При этом снижается нагрузка на CPU. Прототип на базе FPGA продемонстрировал сокращение времени обработки запросов при работе с базами данных на 46 % по сравнению с серверными CPU. Теоретически выигрыш может достигать 95 % при реализации в виде ASIC. Чип задействует 4-нм техпроцесс Samsung Foundry. Упомянута поддержка ECC. Компания Xcena предоставляет полностью интегрированный комплект для разработчиков (SDK), состоящий из низкоуровневых драйверов, библиотек среды выполнения и вспомогательных инструментов, которые помогают создавать прототипы и развертывать MX1 с минимальными усилиями по интеграции.
03.08.2025 [12:14], Сергей Карасёв
Enfabrica представила технологию EMFASYS для расширения памяти ИИ-системКомпания Enfabrica анонсировала технологию EMFASYS, которая объединяет Ethernet RDMA и CXL для создания пулов памяти, предназначенных для работы с серверными ИИ-стойками на базе GPU. Решение позволяет снизить нагрузку на HBM-память ИИ-ускорителей и тем самым повысить эффективность работы всей системы в целом. Enfabrica основана в 2019 году. Стартап предлагает CXL-платформу ACF на базе ASIC собственной разработки, которая позволяет напрямую подключать друг к другу любую комбинацию GPU, CPU, DDR5 CXL и SSD, а также предоставляет 800GbE-интерконнект. Компания создала чип ACF SuperNIC (ACF-S) для построения высокоскоростного интерконнекта в составе кластеров ИИ на основе GPU. В рамках платформы EMFASYS специализированный пул памяти подключается к GPU-серверам через чип-коммутатор ACF-S с пропускной способностью 3,2 Тбит/с, который объединяет PCIe/CXL и Ethernet. Поддерживаются интерфейсы 100/400/800GbE, 32 сетевых порта и 160 линий PCIe. Могут быть задействованы до 144 линий CXL 2.0, что позволяет использовать до 18 Тбайт памяти DDR5 (в перспективе — до 28 Тбайт). Вместо копирования и перемещения данных между несколькими чипами на плате Enfabrica использует один SuperNIC, который позволяет представлять память в качестве целевого RDMA-устройства для приложений ИИ. Высокая пропускная способность памяти достигается за счёт распределения операций более чем по 18 каналам на систему. Время доступа при чтении измеряется в микросекундах. Программный стек на базе InfiniBand Verbs обеспечивает массовую параллельную передачу данных с агрегированной полосой пропускания между GPU-серверами и памятью DRAM через группы сетевых портов 400/800GbE. Enfabrica отмечает, что рабочие нагрузки генеративного, агентного и рассуждающего ИИ растут экспоненциально. Во многих случаях таким приложениям требуется в 10–100 раз больше вычислительной мощности на запрос, чем большим языковым моделям (LLM) предыдущего поколения. Если память HBM постоянно загружена, дорогостоящие ускорители простаивают. Технология EMFASYS позволяет решить проблему посредством расширения памяти: в этом случае ресурсы GPU используются более полно, а заявленная экономия достигает 50 % в расчёте на токен на одного пользователя.
05.07.2025 [15:16], Алексей Разин
Повальный спрос на HBM тормозит внедрение CXL- и PIM-памятиОтраслевые аналитики уже не раз отмечали, что бурное развитие отрасли искусственного интеллекта, сопряжённое с ростом спроса на память типа HBM, ограничивает ресурсы производителей памяти на других направлениях. Помимо DDR, от этого страдают и перспективные виды памяти, которые производители хотели бы вывести на рынок. Об этом сообщило издание Business Korea, приведя в пример задержки с внедрением памяти типа CXL компанией Samsung Electronics и памяти типа PIM (Processing-in-Memory) компанией SK hynix. В последнем случае речь идёт о микросхемах памяти, способных самостоятельно выполнять специфические вычисления. Оба типа памяти могли бы в известной мере дополнить HBM в сегменте систем искусственного интеллекта.
Источник изображения: SK hynix Samsung рассчитывала приступить к продвижению CXL-памяти ещё во II половине 2024 года, но её сертификация ключевыми клиентами до сих пор не завершена. SK hynix разрабатывает GDDR6-AiM с 2022 года, но до её фактического выпуска дело так и не дошло из-за неготовности рыночной экосистемы. Кроме того, сами производители памяти ограничены в свободных ресурсах, поскольку все силы бросили на выполнение заказов по производству HBM. Всё доступное оборудование задействовано для выпуска именно HBM, не давая производителям шанса заняться подготовкой к выпуску других перспективных типов памяти. На этом фоне у южнокорейских игроков рынка даже возникают опасения, что китайские конкуренты быстрее справятся с выводом на рынок модулей CXL и PIM. В этой ситуации корейские производители начали всё сильнее рассчитывать на поддержку государства, причём не столько финансовую, сколько регуляторную. С технической точки зрения к выводу на рынок CXL и PIM всё уже почти готово, но по факту на память этих типов пока нет достаточного спроса.
16.05.2025 [17:20], Алексей Степин
Hygon якобы готова к выпуску 128-ядерного конкурента AMD EPYC с SMT4 и AVX-512Имя Hygon вряд ли легко найти в списке лучших серверных процессоров, однако в своё время этот китайский разработчик смог выпустить в рамках соглашения с AMD серверные чипы Hygon Dhyana, совместимые с платформой Socket SP3. В 2024 году компания похвасталась уже 64-ядерными Hygon C86-7490 для платформы Socket SP5, которые, впрочем, всё равно базировались на архитектуре Zen 1. Но амбиции китайских разработчиков отнюдь не ограничиваются устаревшими архитектурами AMD, передаёт Tom's Hardware. Недавно в социальной сети Twitter (X) был замечен слайд, на котором якобы расписаны планы Hygon в области разработки новых процессоров, и они выглядят впечатляюще. В них фигурирует новый флагман под условным именем C86-5G, способный составить конкуренцию современным многоядерным серверным процессорам Intel и AMD. Этот процессор получит до 128 ядер, причём с поддержкой SMT4, а не привычного для x86-мира SMT2, что даст ему возможность исполнять одновременно до 512 потоков. Некогда аналогичная технология уже применялась Intel в процессорах Xeon Phi Knights Landing. Какая микроархитектура будет стоять за новыми ядрами, пока не разглашается. Заявляется лишь, что это новая фирменная разработка Hygon, а не очередное ответвление AMD EPYC. Заявлено о как минимум 17% прироста производительности в пересчете на такт (IPC). Известно также, что C86-5G получат поддержку AVX-512. 512 потоков нуждаются в быстрой памяти — новые процессоры получат 16-канальный контроллер DDR5-5600, что является серьезным шагом вперёд от 12 каналов DDR5-4800 в предыдущем поколении. Что касается IO-подсистемы, то уже в предыдущем поколении появилась поддержка 128 линий PCI Express 5.0. Вероятнее всего, это станет минимумом для C86-5G и, хотя точных цифр компания нет, отмечается, что в новых процессорах дебютирует полноценная поддержка CXL 2.0.
Hygon C86-7490. Источник: Twitter@YuuKi_AnS Четвёртое поколение серверных чипов Hygon доступно с прошлого года, так что можно предположить, что проектирование C86-5G находится в самом разгаре. Это один из проектов, критически важных для КНР в рамках «тарифной войны» с США и нацеленных на достижение статуса самодостаточности в сфере IT.
26.03.2025 [10:39], Сергей Карасёв
SMART Modular представила энергонезависимые CXL-модули памяти NV-CMM-E3SКомпания SMART Modular Technologies объявила о начале пробных поставок улучшенных энергонезависимых модулей памяти CXL (Non-Volatile CXL Memory Module, NV-CMM), соответствующих стандарту CXL 2.0. Изделия ориентированы на применение в дата-центрах, которые поддерживают такие нагрузки, как резидентные базы данных, аналитика в реальном времени и приложения НРС. Новинка (NV-CMM-E3S) объединяет память DDR4-3200 DRAM, флеш-память NAND и источник резервного питания в форм-факторе E3.S 2T (EDSFF). Задействован интерфейс PCIe 5.0 x8. Применяются контроллеры на базе ASIC и FPGA. Устройство NV-CMM имеет ёмкость 32 Гбайт, а максимальная пропускная способность заявлена на уровне 32 Гбайт/с. Поддерживается шифрование информации по алгоритму AES-256. Интегрированный источник аварийного питания обеспечивает сохранность критически важных данных при непредвиденных отключениях электроэнергии, что повышает надёжность и доступность системы в целом. В случае сбоя в центральной сети энергоснабжения производится копирование данных из DRAM в NAND, а после восстановления подачи энергии выполняется обратный процесс. Изделие обеспечивает более быструю перезагрузку виртуальных машин и сокращает время простоя в облачных инфраструктурах.
Источник изображения: SMART Modular Technologies Устройство имеет размеры 112,75 × 15 × 76 мм. Эксплуатироваться модуль может при температурах окружающей среды до +40 °C. Отмечается, что внедрение NV-CMM на основе стандарта CXL знаменует собой важную веху в удовлетворении растущих потребностей платформ ИИ, машинного обучения и аналитики больших данных. |
|
