Материалы по тегу: pci express 5.0
24.03.2023 [20:28], Алексей Степин
Kioxia анонсировала серверные SSD на базе XL-FLASH второго поколенияПо мере внедрения новых версий PCI Express растут и линейные скорости SSD. Не столь давно 3-4 Гбайт/с было рекордно высоким показателем, но разработчики уже штурмуют вершины за пределами 10 Гбайт/с. Компания Kioxia, крупный производитель флеш-памяти и устройств на её основе, объявила на конференции 2023 China Flash Market о новом поколении серверных накопителей, способных читать данные со скоростью 13,5 Гбайт/с. Новые высокоскоростные SSD будут построены на базе технологии XL-FLASH второго поколения. Первое поколение этих чипов компания (тогда Toshiba) представила ещё в 2019 году. В основе лежат наработки по BiCS 3D в однобитовом варианте, что позволяет устройствам на базе этой памяти занимать нишу Storage Class Memory (SCM) и служить заменой ушедшей с рынка технологии Intel Optane. Как уже сообщалось ранее, XL-FLASH второго поколения использует двухбитовый режим MLC, но в любом случае новые SSD Kioxia в полной мере раскроют потенциал PCI Express 5.0. Они не только смогут читать данные на скорости 13,5 Гбайт/с и записывать их на скорости 9,7 Гбайт/с, но и обеспечат высокую производительность на случайных операциях: до 3 млн IOPS при чтении и 1,06 млн IOPS при записи. Время отклика для операций чтения заявлено на уровне 27 мкс, против 29 мкс у XL-FLASH первого поколения. Kioxia полагает, что PCI Express 5.0 и CXL 1.x станут стандартами для серверных флеш-платформ класса SCM надолго — господство этих интерфейсов продлится минимум до конца 2025 года, лишь в 2026 году следует ожидать появления первых решений с поддержкой PCI Express 6.0. Активный переход на более новую версию CXL ожидается в течение 2025 года. Пока неизвестно, как планирует ответить на активность Kioxia другой крупный производитель флеш-памяти, Samsung Electronics, которая также располагает высокопроизводительной разновидностью NAND под названием Z-NAND.
11.03.2023 [21:38], Алексей Степин
Intel представила FPGA Agilex 7 с высокоскоростными трансиверами F-TileFPGA остаются популярными как гибкие решения, пригодные для реализации широкого круга задач по ускорению обработки данных. Однако с ростом пропускной способности современных сетей растут соответствующие требования и к FPGA. Ответом на вызовы в этом сегменте стал выпуск новой серии ПЛИС Intel Agilex 7 с самыми быстрыми в мире FPGA трансиверами F-Tile. F-Tile — двухрежимный последовательный интерфейс, предлагающий схемы модуляции PAM4 и NRZ. Он может работать на скоростях до 116 Гбит/с. Также предлагается реализация Ethernet вплоть до 400GbE. Каждый тайл такого типа может содержать до четырёх высокоскоростных каналов FHT с поддержкой PAM4 и до 16 менее скоростных каналов FGT, ограниченных 58 Гбит/с в режиме PAM4 и 32 Гбит/с в режиме NRZ. Количество F-тайлов в составе Agilex 7 зависит от конкретной модели чипа. Наличие столь высокопроизводительных трансиверов в составе Agilex 7 делает новые ПЛИС Intel отлично подходящими для поддержки высокоскоростных сетей (в качестве DPU), в том числе беспроводных, или для ИИ-ускорителей. Производительностью Agilex 7 не обделены — для старшей серии M говорится о 38 Тфлопс, правда, в режиме FP16. Базируются новые ПЛИС на уже не слишком новом 10-нм техпроцессе Intel 7 Enhanced SuperFin, и в старшей серии M могут предоставить в распоряжение разработчику 3,85 млн логических элементов, 12300 блоков DSP и 370 Мбайт быстрой интегрированной памяти, а также до 32 Гбайт памяти в HBM2e-сборках. Также в составе присутствует квартет ядер Arm Cortex-A53. Agilex 7 поддерживают интерфейс PCI Express 5.0 и CXL 1.1 (посредством R-Tile). Таким образом, программируемые матрицы Intel Agilex 7 благодаря сочетанию быстрых трансиверов и интерфейсов HBM2e и LPDDR5 найдут применение в любых сценариях, где требуется обработка существенных массивов данных: в периферийных системах первичной обработки данных, решениях искусственного интеллекта, при развёртывании сетей 5G и даже в сфере HPC.
07.03.2023 [17:05], Владимир Мироненко
Supermicro анонсировала высокопроизводительные и высокоплотные All-Flash СХД: PCIe 5.0 + EDSFF E3.S/E1.SSupermicro сообщила о пополнении семейства высокопроизводительных и высокоплотных All-Flash СХД петабайтного класса. Новые системы Supermicro поддерживают NVMe SSD в форм-факторе EDSFF E3.S/E1.S и предлагают 16 или 32 отсека для накопителей PCIe 5.0. Первые системы получат поддержку до 0,5 Пбайт дискового пространства в 1U-шасси с 16 отсеками. Чуть позже появятся 1-Пбайт 2U-системы с 32 отсеками на базе современных платформ Intel и AMD с поддержкой PCIe 5.0. Отмечается, что новинки позволят заказчикам сократить количество стоечных систем, необходимых для удовлетворения требований к хранению данных на «горячем» и «тёплом» уровнях, и снизить совокупную стоимость владения. «Новые хранилища компактны и энергоэффективны и обеспечат нашим пользователям самую низкую задержку и самую высокую пропускную способность в отрасли. Производительность и ёмкость этих новых систем позволяют клиентам задействовать передовые ИИ-технолгии. Используя нашу модульную архитектуру, мы можем быстрее выводить новейшие технологии на рынок, предоставляя пользователям передовые системы», — отметил президент и гендиректор Supermicro Чарльз Лян (Charles Liang). ![]() Источник изображения: Supermicro Новые системы на базе Intel оснащены двумя процессорами Intel Xeon Sapphire Rapids с TDP до 270 Вт и содержат до 32 модулей DDR5-4800 (суммарно до 8 Тбайт). В свою очередь, платформы на базе AMD EPYC включают CPU с TDP до 350 Вт и 24 модуля DDR5-4800. Данные системы предназначены для приложений с интенсивными вычислениями, высокими требованиями к IO-подсистеме и объёму оперативной памяти. Кроме того, новые платформы предложат два слота PCIe 5.0 x16 для FHHL-карт расширения и два AIOM-слота (OCP 3.0), тоже PCIe 5.0 x16. Это позволит оснастить СХД ИИ-ускорителями, а также DPU/SmartNIC для NVMe-oF. Supermicro отмечает, что новая симметричная NUMA-архитектура сокращает задержку обращения к накопителями, обеспечивает баланс пропускной способности и увеличивает гибкость сетевого подключения. А симметричный дизайн шасси улучшает поток воздуха, позволяя использовать более мощные процессоры. В серию войдут платформы SSG-121E-NE316R (1U16, E3.S), SSG-221E-NE324R (2U32, E3.S) и SSG-121E-NES24R (1U24, E1.S) на базе Intel, а также две AMD-платформы: ASG-1115S-NE316R (1U16, E3.S) и ASG-2115S-NE332R (2U32, E3.S).
16.01.2023 [22:51], Алексей Степин
Unifabrix: использование CXL повышает эффективность работы многоядерных системИзраильский стартап UnifabriX показал, что разработанный его силами пул Smart Memory Node с поддержкой CXL 3.0 может не только расширять объём доступной системам оперативной памяти, но и повышать эффективность её использования, а также общую производительность серверных платформ. На конференции SC22, прошедшей в конце прошлого года, компания продемонстрировала работу Smart Memory Node в комплексе с несколькими серверами на базе Sapphire Rapids. ![]() UnifabriX Smart Memory Node. Использование E-EDSFF E3 позволяет легко наращивать объём пула (Источник здесь и далее: Blocks & Files) UnifabriX делает основной упор не на непосредственном увеличении доступного объёма оперативной памяти с помощью CXL, а на том, что эта технология повышает общую пропускную способность подсистемы памяти, что позволяет процессорным ядрам использовать её более эффективно. Как показывает приведённый график, со временем число ядер в современных процессорах активно росло, но доступная каждому ядру ПСП снижалась. ![]() По мере увеличения количества ядер, каждому ядру достаётся всё меньше памяти. На SC22 компания провела тестирование с помощью HPC-бенчмарка HPCG (High Performance Conjugate Gradient), который оценивает не только «голую» производительность вычислений, но и работу с памятью, что не менее важно в современных нагрузках. Без использования пула Smart Memory Node максимальная производительность была достигнута при загрузке процессорных ядер не более 50 %, то есть вычислительные ресурсы у системы ещё были, но для их использования катастрофически не хватало пропускной способности памяти! ![]() Подключение пулов CXL позволило поднять производительность на 26 %. В реальных сценариях выигрыш может оказаться ещё больше Компания считает, что в случае с такими процессорами, как AMD EPYC Genoa, использование только локальной DRAM выведет систему «на плато» уже при 20 % загрузке. Подключение же пулов Smart Memory Node позволило, как минимум, на 26 % повысить загрузку процессорных ядер, поскольку предоставило в их распоряжение дополнительную пропускную способность. К локальным 300 Гбайт/с, обеспечиваемым DDR5, добавилось ещё 256 Гбайт/с, «прокачиваемых» через PCIe 5.0/CXL. ![]() Схема тестовой платформы, показанной на SC22 В тестовом сценарии на SC22 были использованы системы на базе Xeon Max. UnifabriX Smart Memory Node имеет в своём составе сопроцессор RPU (Resource Processing Unit), дополненный фирменным ПО. Устройство использует модули EDSFF E3 (такие есть у Samsung и SK hynix), максимальная совокупная ёмкость памяти может достигать 128 Тбайт. UnifabriX умеет отслеживать загрузку каналов памяти каждого процессора из подключённых к нему систем, и в случае обнаружения нехватки ПСП перенаправляет дополнительные ресурсы туда, где они востребованы. Каждое такое устройство оснащено 10 портами CXL/PCIe 5.0. ![]() Smart Memory Node имеет 10 портов CXL, совместимых с PCI Express 5.0/6.0 Таким образом, UnifabriX наглядно указала на основное узкое место современных NUMA-систем и показала, что использование CXL позволяет обойти накладываемые ограничения и использовать многоядерные комплексы более эффективно. Речь идёт как об обеспечении каждого ядра в системе дополнительной ПСП, так и о повышении эффективности подсистем хранения данных, ведь один пул Smart Memory Node может содержать 128 Тбайт данных.
12.12.2022 [19:27], Алексей Степин
Консорциум PICMG утвердил формат модулей COM-HPC Mini с поддержкой PCIe 4.0 и 5.0Недостатки старого формата промышленных вычислительных модулей COM Express — наличие лишь 440 контактов и невозможность обеспечения стабильной работы интерфейса PCIe 4.0 и новее — привели к созданию нового семейства форматов под общим названием COM-HPC (High Performance Computing), сообщает CNX-Software. До недавнего времени стандарт описывал типоразмеры модулей с габаритами 95 × 120 мм (размер A) до 160 × 120 мм (размер C), а также более крупные серверные типы D и E (160 × 160 и 200 × 160 мм соответственно). Но на днях консорциум PICMG, отвечающий за развитие COM-HPC, утвердил стандарт более компактных модулей COM-HPC Mini. ![]() Источник: CNX Software Габариты модулей нового типа составляют всего 95 × 60 мм. Этого удалось добиться путём отказа от одного из разъёмов, так что контактов у COM-HPC Mini всего 400. По коммутационным возможностям это 90% от возможностей COM Express Type 6 (125 × 96 мм). На данный момент размеры и распиновка COM-HPC Mini финализированы, минимальные изменения в стандарт могут быть внесены в I и II кварталах 2023 года. ![]() Источник: www.picmg.org У COM-HPC Mini есть преимущество в виде официальной поддержки более высоких скоростей передачи данных, соответствующих стандартам PCI Express 4.0 и 5.0. Правда, разработчики говорят, что новый стандарт вытеснит господствующий сейчас в своём габаритном классе COM Express Mini (84 × 55 мм) не сразу. Модули COM-HPC Mini найдут применение в различных встраиваемых приложениях. В группу разработки нового стандарта входит 15 компаний-производителей промышленных ПК, в частности, ADLINK, Kontron и Сongatec, которые вскоре начнут разработку модулей нового стандарта. Сам по себе набор спецификаций COM-HPC открытый, но бесплатным он не является и стоит $750.
29.08.2022 [18:34], Алексей Степин
AMD представила DPU-платформу 400G Adaptive Exotic SmartNICНа конференция Hot Chips 34 AMD представила новую платформу 400G Adaptive Exotic SmartNIC. В самой концепции формально нет ничего нового, поскольку DPU уже снискали популярность в среде гиперскейлеров, но вариант AMD сочетает достоинства не двух, а трёх миров: классического ASIC, программируемой логики на базе FPGA и Arm-процессора общего назначения. На деле процессор (PSX) новинки AMD устроен ещё интереснее: он делится на два домена. В первом домене имеется шестнадцать ядер Arm Cortex-A78, организованных в четыре кластера по четыре ядра. Сюда же входят аппаратные движки для ускорения TLS 1.3. Второй домен состоит из четырёх ядер Arm Cortex-R52 и различных контроллеров низкоскоростных шин, таких как UART, USB 2.0, I2C/I3C, SPI, MIO и прочих. Посредством высокоскоростной программируемой внутренней шины блок PSX соединён с другими компонентами: модулем взаимодействия с хост-системой (CPM5N), подсистемой памяти, сетевым модулем HNICX и блоком программируемой логики. CPM5N реализует поддержку PCIe 5.0/CXL 2.0, причём доступен режим работы в качестве корневого (root) комплекса PCIe. Тут же находится настраиваемый DMA-движок. Блок фиксированных сетевых функций представляет собой классический ASIC, обслуживающий пару портов 200GbE. Подсистема памяти представлена 8 каналами DDR5/LPDDR5 с поддержкой 32-бит DDR5-5600 ECC или 160-бит LPDDR5-6400, но говорится и совместимости с другими вариантами памяти, в то числе SCM. Здесь же имеется блок шифрования содержимого памяти с поддержкой стандартов AES-GCM/AES-XTS. 400G Adaptive Exotic SmartNIC имеет развитую поддержку VirtIO и OVS. Также поддерживается виртуализация NVMe-устройств, тоже с шифрованием. Особое внимание AMD уделила тесному взаимодействию всех частей Adaptive Exotic SmartNIC: наличие выделенных линков между блоками хост-контроллера, PSX и FPGA обеспечивает работу на полной скорости в средах, действительно требующих прокачки данных на скоростях в районе 400 Гбит/с. Благодаря наличию FPGA-части 400G новинка можно легко адаптировать к новым требованиям со стороны заказчиков. В частности, решения на базе ПЛИС Xilinx активно поставляются в Китай, где требования к шифрованию существенно отличаются от предъявляемых к аппаратному обеспечению в Европе или США, но наличие блока FPGA позволяет решить эту проблему. У Intel уже есть в сём-то похожая платформа, но более скромная по техническим характеристикам — Oak Springs Canyon (C6000X).
09.08.2022 [18:09], Игорь Осколков
Китайская компания Biren представила ИИ-ускоритель BR100, который обгоняет по производительности NVIDIA A100Шанхайская компания Biren Technology, основанная в 2019 году и уже получившая более $280 млн инвестиций, официально представила серию ускорителей BR100, которые способные потягаться с актуальными решениями от западных IT-гигантов. Утверждается, что это первое изделие подобного класса, созданное в Поднебесной. Компания уже подписала соглашение о сотрудничестве с ведущим производителем серверов Inspur. Новинка содержит 77 млрд транзисторов, использует чиплетную компоновку, изготавливается по 7-нм техпроцессу на TSMC и имеет 2.5D-упаковку CoWoS. Для сравнения — грядущие NVIDIA H100 имеют такую же упаковку, но включают 80 млрд транзисторов и изготавливаются по более современному техпроцессу TSMC N4. При этом BR100 примерно вдвое производительнее 7-нм NVIDIA A100 и примерно вдвое же медленнее H100. Впрочем, Biren приводит только данные о вычислениях пониженной точности, да и в целом говорит о том, что новинка предназначена в первую очередь для ИИ-нагрузок. В серию входят два решения: BR100 и BR104. Оба варианта оснащаются интерфейсом PCIe 5.0 x16 с поддержкой CXL. Первый вариант имеет OAM-исполнение с TDP на уровне 550 Вт. Он позволяет объединить до восьми ускорителей на UBB-плате, связав их между собой фирменным интерконнектом BLink (512 Гбайт/с) по схеме каждый-с-каждым. BR100 полагается 300 Мбайт кеш-памяти и 64 Гбайт HBM2e (4096 бит, 1,64 Тбайт/c). Также он способен одновременно кодировать до 64 потоков FullHD@30 HEVC/H.264, а декодировать — до 512. Кроме того, доступно создание до 8 аппаратно изолированных инстансов Secure Virtual Instance (SVI) по аналогии с NVIDIA MIG. Заявленная производительность составляет 256 Тфлопс для FP32-вычислений, 512 Тфлопс для TF32+ (по-видимому, подразумевается некая совместимость с фирменным форматом NVIDIA TF32), 1024 Тфлопс для BF16 и, наконец, 2048 Топс для INT8. ![]() BR104 BR104 представляет более традиционную FHFL-карту с TDP на уровне 300 Вт. По производительности она ровно вдвое медленнее старшей версии BR100, способна обрабатывать вдвое меньшее количество видеопотоков и предлагает только до 4 SVI-инстансов. BR104 имеет 150 Мбайт кеш-памяти, 32 Гбайт HBM2e (2048 бит, 819 Гбайт/c) и три 192-Гбайт/с интерфейса BLink. Для работы с ускорителями компания предлагает собственную программную платформу BIRENSUPA, совместимую с популярными фреймворками PyTorch, TensorFlow и PaddlePaddle.
03.08.2022 [20:20], Алексей Степин
Microchip представила контроллеры памяти SMC 2000: два канала DDR4-3200/DDR5-4800 и 16 линий CXLЭкосистема CXL продолжает формироваться: идея дезагрегации ресурсов встретила тёплый отклик рынка, всё чаще появляются новые решения с поддержкой данного стандарта. Развивается и сам стандарт — буквально на днях были приняты и опубликованы спецификации CXL 3.0. А компания Microchip Technology представила новые контроллеры памяти с поддержкой CXL и двух каналов DDR4-3200 или DDR5-4800. Коммутаторы и контроллеры для среды CXL компания выпускала и ранее, но серия SMC 2000 является новинкой, которая послужит мостом между памятью DDR4/DDR5 и CXL-шиной. В новой серии представлены контроллеры с конфигурацией 8×32G (PM8701) и 16×32G (PM8702), отвечающие набору спецификаций CXL 2.0 (Type 3) и 1.1. Вариант 16×32G к тому же является самым производительным в индустрии на сегодняшний день: он поддерживает сразу 16 линий CXL, способных работать на скорости 32 ГТ/с (PCIe 5.0). Это серьёзный шаг вперёд по сравнению с контроллером SMC 1000 первого поколения, чьи возможности были ограничены формулой 8×25G. Данный чип специально разрабатывался для модулей Open Memory Interface (OMI), но данная технология практически не «взлетела», оказавшись ограниченной рамками платформы IBM POWER. В итоге все наработки по OMI и OpenCAPI были переданы в руки консорциума CXL. ![]() CXL позволит легко наращивать объёмы памяти. Источник: SK hynix Серию SMC 2000 явно ждёт более успешная судьба: новые чипы позволят создавать высокоскоростные двухканальные модули объёмом от 512 Гбайт. К тому же они поддерживают стекирование микросхем DRAM — до четырёх слоёв на канал. А это открывает дорогу к ещё более серьёзным объёмам. Более подробно о SMC 2000 можно узнать на сайте производителя.
03.08.2022 [14:16], Сергей Карасёв
Tenafe представила контроллер TC2310 для серверных SSD с интерфейсом PCIe 5.0Компания Tenafe анонсировала контроллер TC2310, предназначенный для построения твердотельных накопителей с интерфейсом PCIe 5.0 для центров обработки данных и платформ высокопроизводительных вычислений. Пробные поставки изделия начнутся во второй половине 2023 года. Кроме того, будет выпущена модификация TC2311 для клиентских SSD. Решения позволяют использовать флеш-память TLC и QLC NAND. Реализована 8-канальная архитектура с поддержкой чипов с интерфейсом 3600 MT/s. В качестве буфера может применяться память DDR4/DDR5. Для TC2310 заявлена возможность кастомизации под нужды заказчика. ![]() Источник изображения: Tenafe На базе контроллера TC2310 будут производиться накопители в форм-факторах E1.S, E1.L, U.2, E3.S. Скорость передачи данных теоретически может достигать 14 Гбайт/с, показатель IOPS (операций ввода/вывода в секунду) — 2,5 млн. Чип TC2311 подходит для применения в высокопроизводительных клиентских накопителях типоразмера M.2 и U.2. Быстродействие достигает 14 Гбайт/с, а величина IOPS — 1,5 млн. Обе новинки поддерживают технологию исправления ошибок LDPC (фирменный движок FlexLDPC) и средства сквозной защиты целостности данных. Могут формироваться массивы RAID из чипов памяти. Также заявлено соответствие спецификациями UNH-IOL NVMe, а для TC2310 — OCPv2.
02.08.2022 [13:10], Сергей Карасёв
Китайская компания DapuStor представила SSD серии Haishen5 с интерфейсом PCIe 5.0 и ёмкостью до 32 ТбайтКомпания DapuStor анонсировала твердотельные накопители семейства Haishen5 для систем корпоративного класса и центров обработки данных, передаёт StorageReview. Изделия используют интерфейс PCle 5.0 x4 (спецификация NVMe 2.0). Пробные поставки накопителей компания организует в IV квартале нынешнего года. Информации об ориентировочной цене пока нет. Покупателям будут предлагаться модификации в различных исполнениях: E3.S, E1.S и U.2. Говорится о подготовке устройств на основе чипов флеш-памяти TLC и QLC NAND. В первом случае вместимость варьируется от 1,6 до 15,36 Тбайт, а во втором достигает 32 Тбайт. Задействован контроллер Marvell Bravera SC5. Заявленная скорость последовательного чтения информации достигает 14 000 Мбайт/с, скорость последовательной записи — 8000 Мбайт/с. Величина IOPS при чтении данных блоками по 4 Кбайт составляет до 2 800 000, при записи — до 600 000. Задержки при последовательном чтении/записи заявлены на уровне 8/9 мкс. |
|