Материалы по тегу: cxl
25.08.2022 [10:00], Сергей Карасёв
Консорциум CXL и JEDEC подписали меморандум о взаимопониманииКомитет инженеров в области электронных устройств JEDEC Solid State Technology Association и консорциум CXL (Compute Express Link) объявили о подписании меморандума о взаимопонимании. Цель — сотрудничество в области DRAM и технологий постоянной памяти. JEDEC специализируется на разработке стандартов компьютерной памяти. В работе комитета принимают участие такие известные компании, как AMD, Elpida, Hynix, IBM, Infineon, Micron, Samsung, Toshiba, Texas Instruments и другие. В свою очередь, консорциум CXL продвигает одноимённую технологию — высокоскоростной интерконнект, обеспечивающий взаимодействие хост-процессора с акселераторами, буферами памяти, умными устройствами ввода/вывода и пр. По условиям договора, JEDEC и CXL сформируют совместную рабочую группу, которая будет отвечать за обмен информацией, требованиями и рекомендациями. Это поможет обеим организациям в разработке стандартов, которые будут дополнять друг друга. «При поддержке со стороны десятков ведущих отраслевых компаний данное сотрудничество позволит обеим сторонам оптимизировать разработку стандартов и поможет JEDEC в создании отдельных стандартов, предназначенных для модулей памяти и компонентов CXL», — говорится в совместном заявлении.
09.08.2022 [18:09], Игорь Осколков
Китайская компания Biren представила ИИ-ускоритель BR100, который обгоняет по производительности NVIDIA A100Шанхайская компания Biren Technology, основанная в 2019 году и уже получившая более $280 млн инвестиций, официально представила серию ускорителей BR100, которые способные потягаться с актуальными решениями от западных IT-гигантов. Утверждается, что это первое изделие подобного класса, созданное в Поднебесной. Компания уже подписала соглашение о сотрудничестве с ведущим производителем серверов Inspur. Новинка содержит 77 млрд транзисторов, использует чиплетную компоновку, изготавливается по 7-нм техпроцессу на TSMC и имеет 2.5D-упаковку CoWoS. Для сравнения — грядущие NVIDIA H100 имеют такую же упаковку, но включают 80 млрд транзисторов и изготавливаются по более современному техпроцессу TSMC N4. При этом BR100 примерно вдвое производительнее 7-нм NVIDIA A100 и примерно вдвое же медленнее H100. Впрочем, Biren приводит только данные о вычислениях пониженной точности, да и в целом говорит о том, что новинка предназначена в первую очередь для ИИ-нагрузок. В серию входят два решения: BR100 и BR104. Оба варианта оснащаются интерфейсом PCIe 5.0 x16 с поддержкой CXL. Первый вариант имеет OAM-исполнение с TDP на уровне 550 Вт. Он позволяет объединить до восьми ускорителей на UBB-плате, связав их между собой фирменным интерконнектом BLink (512 Гбайт/с) по схеме каждый-с-каждым. BR100 полагается 300 Мбайт кеш-памяти и 64 Гбайт HBM2e (4096 бит, 1,64 Тбайт/c). Также он способен одновременно кодировать до 64 потоков FullHD@30 HEVC/H.264, а декодировать — до 512. Кроме того, доступно создание до 8 аппаратно изолированных инстансов Secure Virtual Instance (SVI) по аналогии с NVIDIA MIG. Заявленная производительность составляет 256 Тфлопс для FP32-вычислений, 512 Тфлопс для TF32+ (по-видимому, подразумевается некая совместимость с фирменным форматом NVIDIA TF32), 1024 Тфлопс для BF16 и, наконец, 2048 Топс для INT8. BR104 представляет более традиционную FHFL-карту с TDP на уровне 300 Вт. По производительности она ровно вдвое медленнее старшей версии BR100, способна обрабатывать вдвое меньшее количество видеопотоков и предлагает только до 4 SVI-инстансов. BR104 имеет 150 Мбайт кеш-памяти, 32 Гбайт HBM2e (2048 бит, 819 Гбайт/c) и три 192-Гбайт/с интерфейса BLink. Для работы с ускорителями компания предлагает собственную программную платформу BIRENSUPA, совместимую с популярными фреймворками PyTorch, TensorFlow и PaddlePaddle.
04.08.2022 [21:43], Алексей Степин
BittWare анонсировала первые ускорители с интерфейсом CXL на базе FPGA Intel AgilexПроизводители аппаратного обеспечения в последнее время особенно активно анонсируют продукты, разработанные для экосистемы CXL. Пока это, в основном, модули памяти, накопители или контроллеры для самого интерконнекта CXL, но компания BittWare, дочернее предприятие Molex, представила нечто иное — по ряду параметров первые в своём роде ускорители с поддержкой CXL, пусть пока и опциональной. Объединяет серию новинок то, что построены они на базе FPGA Intel Agilex. Всего представлено три новых модели: IA-860m, IA-640i и IA-440i. Возглавляет семейство ускоритель IA-860m, использующий самую мощную ПЛИС Agilex AGM 039, оснащённую собственным банком памяти HBM2e объёмом 16 Гбайт, но версия с поддержкой CXL может комплектоваться уже 32 Гбайт такой памяти. Помимо этого, ускоритель имеет два канала DDR5 для DIMM-модулей и три QSFP-DD (до 400GbE). Эта модель предназначена для сценариев, требующих высокой пропускной способности одновременно от сетевых каналов и подсистемы памяти. Интересной особенностью является наличие внутренних портов расширения MCIO, каждый из которых представляет собой по два корневых комплекса PCIe 4.0 x4. Модель IA-640i проще, что видно даже по более скромной однослотовой пассивной системе охлаждения. Здесь устанавливается ПЛИС Intel Agilex AGI 019 или AGI 023, 400GbE-порт QSFP-DD только один, интерфейс MCIO тоже один, памяти HBM нет, а DDR4 заменила DDR5. Поддержка CXL также опциональна, как и в старшей версии, она пока ограничена версией 1.1. Фактически при желании можно просто докупить соответствующий IP-блок. Наконец, версия IA-440i предназначена для использования в компактных серверах, она имеет низкопрофильный конструктив, остальные же её характеристики практически аналогичны IA-640i, за исключением того, что из внутренних интерфейсов у этой модели остался только USB. Все ускорители сопровождаются набором фирменного ПО: драйверами, SDK BittWare, библиотеками и утилитами мониторинга. Новинки поддерживают стандарт Intel oneAPI. Возможности, предоставляемые новыми ускорителями, ограничены только физическими возможностями набортных логических матриц и фантазией разработчиков. Они могут стать основой для инференс-систем, ускорителей работы с базами данных, «вычислительных накопителей», поддержки сетей 5G, обработки потоков данных с массивов различных датчиков в «умной» промышленности и для многого другого. Первые поставки младших моделей запланированы на заключительный квартал этого года с последующим выходом на массовое производство в I квартале 2024 года. А вот первых IA-860m следует ждать не раньше II квартала следующего года, тогда как массовые поставки, согласно опубликованным планам, стартуют лишь годом позже, во II квартале 2024 года.
03.08.2022 [20:20], Алексей Степин
Microchip представила контроллеры памяти SMC 2000: два канала DDR4-3200/DDR5-4800 и 16 линий CXLЭкосистема CXL продолжает формироваться: идея дезагрегации ресурсов встретила тёплый отклик рынка, всё чаще появляются новые решения с поддержкой данного стандарта. Развивается и сам стандарт — буквально на днях были приняты и опубликованы спецификации CXL 3.0. А компания Microchip Technology представила новые контроллеры памяти с поддержкой CXL и двух каналов DDR4-3200 или DDR5-4800. Коммутаторы и контроллеры для среды CXL компания выпускала и ранее, но серия SMC 2000 является новинкой, которая послужит мостом между памятью DDR4/DDR5 и CXL-шиной. В новой серии представлены контроллеры с конфигурацией 8×32G (PM8701) и 16×32G (PM8702), отвечающие набору спецификаций CXL 2.0 (Type 3) и 1.1. Вариант 16×32G к тому же является самым производительным в индустрии на сегодняшний день: он поддерживает сразу 16 линий CXL, способных работать на скорости 32 ГТ/с (PCIe 5.0). Это серьёзный шаг вперёд по сравнению с контроллером SMC 1000 первого поколения, чьи возможности были ограничены формулой 8×25G. Данный чип специально разрабатывался для модулей Open Memory Interface (OMI), но данная технология практически не «взлетела», оказавшись ограниченной рамками платформы IBM POWER. В итоге все наработки по OMI и OpenCAPI были переданы в руки консорциума CXL. Серию SMC 2000 явно ждёт более успешная судьба: новые чипы позволят создавать высокоскоростные двухканальные модули объёмом от 512 Гбайт. К тому же они поддерживают стекирование микросхем DRAM — до четырёх слоёв на канал. А это открывает дорогу к ещё более серьёзным объёмам. Более подробно о SMC 2000 можно узнать на сайте производителя.
03.08.2022 [18:56], Игорь Осколков
Samsung анонсировала Memory-Semantic SSD: DRAM + NAND + CXLSamsung анонсировала новые решения для корпоративного сектора, которые, по словам компании, «трансформируют перемещение, хранение, обработку и управление данными в эпоху Big Data». Впрочем, подробные характеристики новинок компания не предоставила, ограничившись общими словами. Первым в списке значится петабайтное хранилище (Petabyte Storage). Под этим компания подразумевает возможность формирования СХД ёмкостью от 1 Пбайт на базе единственного узла. Высота и компоновка такого узла не уточняются, но это не так и важно, поскольку аналогичные, пусть и поначалу специализированные, решения от других вендоров были представлены ещё два с лишним года назад. Упомянула Samsung и о возможностях расширенной телеметрии, отслеживающей состояние DRAM, NAND, контроллера и прошивки в составе SSD и позволяющей зарнее выявить потенциальные проблемы. Следующий анонс касается т.н. Memory-Semantic SSD, который, по словам компании, сочетает преимущества обычных накопителей и оперативной памяти. В этом можно было бы увидеть намёк на SCM-решение, подходящее в качестве замены почивших Optane, но в данном случае прямо говорится о наличии DRAM-кеша, который позволяет до 20 раз улучшить показатели скорости и задержки на случайных операциях чтения по сравнению с обычными SSD. Новый SSD оптимизирован для мелкоблочных чтения и записи, что, по словам Samsung, крайне важно для ИИ-нагрузок и машинного обучения. Кроме того, прямо говорится о поддержке CXL. Анонсированные вчера спецификации CXL 3.0 как раз позволяют в полной мере задействовать все возможности такого гибридного SSD в составе CXL-фабрики и GFAM. Но до массового распространения этого стандарта пока ещё очень далеко. Наконец, компания объявила о доступности накопителей PM1743 и PM1653 — первых SSD с поддержкой PCIe 5.0 и SAS-4 соответственно. Кроме того, компания напомнила о втором поколении своих SmartSSD с FPGA на борту и CXL-модулях DDR5. Однако сейчас для Samsung, пожалуй, важнее представить новое поколение NAND, чтобы догнать Micron, SK Hynix и даже YMTC. UPD 08.08.2022: ресурс Blocks & Files поделился некоторыми подробностями о новинках Samsung. Так, в рамках проекта Petabyte Storage компания показала 128-Тбайт SSD на базе QLC-памяти и с поддержкой ZNS. Samsung смогла уместить в SFF-корпус сразу две платы с чипами памяти. Так что новинка значительно компактнее, ёмче и быстрее предыдущего рекордсмена — 100-Тбайт Nimbus ExaDrive. Прототип Memory-Semantic SSD базируется на PM9A3 с CXL-интерфейсом и 8-Гбайт DRAM-кешем. Он действительно предлагает как NVMe-доступ (CXL.io), так и load/store (CXL.mem). Наличие DRAM-буфера позволяет работать с блоками размером от 64 байт. Заявленная пиковая производительность для последовательного чтения достигает 139 Гбайт/с, а для случайного — 22 млн IOPS.
02.08.2022 [16:00], Алексей Степин
Опубликованы спецификации Compute Express Link 3.0Мало-помалу стандарт Compute Express Link пробивает себе путь на рынок: хотя процессоров с поддержкой ещё нет, многие из элементов инфраструктуры для нового интерконнекта и базирующихся на нём концепций уже готово — в частности, регулярно демонстрируются новые контроллеры и модули памяти. Но развивается и сам стандарт. В версии 1.1, спецификации на которую были опубликованы ещё в 2019 году, были только заложены основы. Но уже в версии 2.0 CXL получил массу нововведений, позволяющих говорить не просто о новой шине, но о целой концепции и смене подхода к архитектуре серверов. А сейчас консорциум, ответственный за разработку стандарта, опубликовал свежие спецификации версии 3.0, ещё более расширяющие возможности CXL. И не только расширяющие: в версии 3.0 новый стандарт получил поддержку скорости 64 ГТ/с, при этом без повышения задержки. Что неудивительно, поскольку в основе лежит стандарт PCIe 6.0. Но основные усилия разработчиков были сконцентрированы на дальнейшем развитии идей дезагрегации ресурсов и создания компонуемой инфраструктуры. Сама фабрика CXL 3.0 теперь допускает создание и подключение «многоголовых» (multi-headed) устройств, расширены возможности по управлению фабрикой, улучшена поддержка пулов памяти, введены продвинутые режимы когерентности, а также появилась поддержка многоуровневой коммутации. При этом CXL 3.0 сохранил обратную совместимость со всеми предыдущими версиями — 2.0, 1.1 и даже 1.0. В этом случае часть имеющихся функций попросту не будет активирована. Одно из ключевых новшеств — многоуровневая коммутация. Теперь топология фабрики CXL 3.0 может быть практически любой, от линейной до каскадной с группами коммутаторов, подключенных к коммутаторам более высокого уровня. При этом каждый корневой порт процессора поддерживает одновременное подключение через коммутатор устройств различных типов в любой комбинации. Ещё одним интересным нововведением стала поддержка прямого доступа к памяти типа peer-to-peer (P2P). Проще говоря, несколько ускорителей, расположенных, к примеру, в соседних стойках, смогут напрямую общаться друг с другом, не затрагивая хост-процессоры. Во всех случаях обеспечивается защита доступа и безопасность коммуникаций. Кроме того, есть возможность разделить память каждого устройства на 16 независимых сегментов. При этом поддерживается иерархическая организация групп, внутри которых обеспечивается когерентность содержимого памяти и кешей (предусмотрена инвалидация). Теперь помимо эксклюзивного доступа к памяти из пула доступен и общий доступ сразу нескольких хостов к одному блоку памяти, причём с аппаратной поддержкой когерентности. Организация пулов теперь не отдаётся на откуп стороннему ПО, а осуществляется посредством стандартизированного менеджера фабрики. Сочетание новых возможностей выводит идею разделения памяти и вычислительных ресурсов на новый уровень: теперь возможно построение систем, где единый пул подключенной к фабрике CXL 3.0 памяти (Global Fabric Attached Memory, GFAM) действительно существует отдельно от вычислительных модулей. При этом возможность адресовать до 4096 точек подключения скорее упрётся в физические лимиты фабрики. Пул может содержать разные типы памяти — DRAM, NAND, SCM — и подключаться к вычислительным мощностями как напрямую, так и через коммутаторы CXL. Предусмотрен механизм сообщения самими устройствами об их типе, возможностях и прочих характеристиках. Подобная архитектура обещает стать востребованной в мире машинного обучения, в котором наборы данных для нейросетей нового поколения достигают уже поистине гигантских размеров. В настоящее время группа CXL уже включает 206 участников, в число которых входят компании Intel, Arm, AMD, IBM, NVIDIA, Huawei, крупные облачные провайдеры, включая Microsoft, Alibaba Group, Google и Meta✴, а также ряд крупных производителей серверного оборудования, в том числе, HPE и Dell EMC.
01.08.2022 [23:00], Игорь Осколков
Великое объединение: спецификации и наработки OpenCAPI и OMI планируется передать консорциуму CXLКонсорциумы OpenCAPI Consortium (OCC) и Compute Express Link (CXL) подписали соглашение, которое подразумевает передачу в пользу CXL всех наработок и спецификаций OpenCAPI и OMI. Если будет получено одобрения всех участвующих сторон, то это будет ещё один шаг в сторону унификации ключевых системных интерфейсов и возможности реализации новых архитектурных решений. Во всяком случае, на бумаге. Консорциумы OpenCAPI (Open Coherent Accelerator Processor Interface) был сформирован в 2016 году с целью создание единого, универсального, скоростного и согласованного интерфейса для связи CPU с ускорителями, сетевыми адаптерами, памятью, контроллерами и устройствами хранения и т.д. Причём в независимости от типа и архитектуры самого CPU. На тот момент новый интерфейс был определённо лучше распространённого тогда PCIe 3.0. С течением времени дела у OpenCAPI шли ни шатко ни валко, однако фактически его использование было ограничено только POWER-платформами от IBM. Тем не менее, в недрах OpenCAPI родился ещё один очень интересный стандарт — Open Memory Interface (OMI). OMI, если коротко, предлагает некоторую дезагрегацию путём добавления буферной прослойки между CPU и RAM. С одной стороны у OMI есть унифицированный последовательный интерфейс для подключения к CPU, с другой — интерфейсы для подключения какой угодно памяти, на выбор конкретного производителя. OMI позволяет поднять пропускную способность памяти, не раздувая число контактов и физические размеры и самого CPU, и модулей. Однако и в данном случае массовая поддержка OMI по факту есть только в процессорах IBM POWER10. Концептуально CXL в части работы с памятью повторяет идею OMI, только в данном случае в качестве физического интерфейса используется распространённый PCIe. Существенная разница c OMI в том, что начальная поддержка CXL будет в грядущих процессорах AMD и Intel. А Samsung и SK Hynix уже готовят соответствующие DDR5-модули. Да и в целом поддержка CXL в индустрии намного шире. Так что консорциуму CXL, по-видимому, осталось поглотить только ещё один конкурирующий стандарт в лице CCIX, как это уже произошло с Gen-Z. Комментируя соглашение, президент консорциума CXL отметил, что сейчас наиболее удачное время для объединения усилий, которое принесёт пользу всей IT-индустрии. Участники OpenCAPI имеют богатый опыт, который поможет улучшить грядущие спецификации CXL и избежать ошибок.
01.08.2022 [18:41], Игорь Осколков
SK hynix вслед за Samsung представила CXL-модули DDR5SK hynix Inc. представила свои первые образцы DDR5-модулей в форм-факторе EDSFF E3.S. Новинки оснащены интерфейсом PCIe 5.0 x8 и контроллерами CXL 2.0. Массовое производство таких модулей начнётся в 2023 году. Одновременно компания представила и open source набор HMSDK для разработки решений на базе новой памяти. Он будет доступен в IV квартале 2022 года. Первые образцы обладают довольно скромной ёмкостью (всего 96 Гбайт), но построены они на базе современных 24-Гбит чипов, изготовленных по техпроцессу 1α. Есть и ещё один нюанс — поскольку, по словам компании, массовых серверных платформ с поддержкой E3.S x8 всё ещё нет, некоторые образцы адаптирована для использования в имеющихся аппаратных платформах. Тем не менее, интерес к новинками в том или ином виде уже выразили AMD, Dell, Intel и Montage. SK hynix, как и другие участники консорциума CXL, отмечает, что гетерогенный подход к архитектуре памяти в серверах откроет возможности для создания компонуемой инфраструктуры, а также позволит гибко выбирать необходимые уровень производительности и ёмкость DRAM. Впрочем, в полном объёме вся гибкость работы с памятью будет доступна только на платформах с поддержкой CXL 2.0, которую грядущие серверные процессоры AMD и Intel предложить не смогут. SK hynix отмечает, что даже простое сочетание DIMM и CXL-модулей в рамках одного узла позволит существенно нарастить суммарную пропускную способность DRAM — с 260–320 Гбайт/c до 360–480 Гбайт/с. Ёмкость, правда, согласно расчётам SK hynix, вырастет с 768 Гбайт до 1,15 Тбайт. Samsung же ещё этой весной анонсировала выход 512-Гбайт CXL-модулей DDR5, а в прошлом году представила платформу Poseidon V2 с поддержкой PCIe 5.0, CXL и E3.S-модулей.
20.07.2022 [14:23], Алексей Степин
Корейский институт передовых технологий показал прототип пула памяти DirectCXLИдея дезагрегации памяти интересует не только владельцев крупных облачных ЦОД, но и специалистов по суперкомпьютерным системам, которые также способны много выиграть от использования подобных технологий. В числе прочих, активно ведёт работы в данном направлении Корейский институт передовых технологий (KAIST), продемонстрировавший недавно работоспособный прототип технологии под названием DirectCXL, передаёт The Next Platform. Нетрудно понять из названия, что основой является протокол CXL. Основные принципы, заложенные в DirectCXL лаборатория KAIST CAMELab раскрыла ещё на мероприятии USENIX Annual Technical Conference, они изложены в брошюре, доступной для скачивания с сайта лаборатории. Исследователи также провели сравнительное тестирование технологий CXL и RDMA, для чего была использована не самая новая версия InfiniBand FDR (56 Гбит/с) на базе Mellanox ConnectX-3. Как выяснилось, RDMA всё ещё обеспечивает более низкие задержки, однако прогресс в этой области остановился, тогда как у CXL имеется потенциал. Избавление от «лишних» протоколов в цепочке между вычислительными узлами и узлами памяти позволило превзойти показатели RDMA over Fabrics. Прототип CXL-пула CAMELab состоял из четырёх плат с разъёмами DIMM и контроллерами на базе FPGA, отвечающими за создание линков PCIe и реализацию протокола CXL 2.0, четырёх хост-систем и коммутатора PCI Express. Для сравнения RDMA с CXL была применена система Facebook✴ DLRM. Как показали тесты, CXL-система CAMELab тратит на инициализацию существенно меньше тактов, нежели RDMA, и в некоторых случаях выигрыш составляет свыше восьми раз, но в среднем равен 2–3,7x, в зависимости от сценария. Некоторое отставание от классической локальной DRAM есть, но оно не так значительно и им в данном случае можно пренебречь, особенно с учётом всех преимуществ, обеспечиваемых CXL 2.0. Стоит учитывать, что поддержки адресации CXL-памяти нет пока ни в одной доступной системе, и здесь CAMELab проделали серьезную работу, создав стек DirectCXL, работающий, судя по всему, непосредственно на FPGA: как и в NUMA-системах, при адресации в режиме load/store первичная обработка данных происходит «на месте», сами данные лишний раз никуда не пересылаются. Также стоит отметить, что драйвер DirectCXL существенно проще созданного Intel для пулов Optane Pmem. Над аналогичными проектами работают также Microsoft с технологией zNUMA и Meta✴ Platforms, разрабатывающая протокол Transparent Page Placement и технологию Chameleon. А Samsung, которая первой представила CXL-модули DDR5, объединилась с Liqid и Tanzanite для развития аппаратных CXL-платформ. Ожидается, что в ближайшее время мы увдим множество разработок на тему использования технологий дезагрегации и создания унифицированных пулов памяти, подключаемых к хост-системам посредством интерконнекта CXL. |
|