Материалы по тегу: fpga

10.06.2022 [23:31], Алексей Степин

Решения Xilinx и Pensando помогут AMD завоевать рынок ЦОД

О грядущих серверных APU MI300, сочетающих архитектуры Zen 4 и CDNA 3, и сразу нескольких сериях процессоров EPYC мы уже рассказали, но на мероприятии Financial Analyst Day 2022 компания поделилась и другими планами относительно серверного рынка, которые весьма обширны. Они включают в себя использование разработок и технологий Xilinx и Pensando.

Фактически AMD теперь владеет полным портфолио аппаратных решений для ЦОД и рынка HPC: процессорами EPYC, ускорителями Instinct, SmartNIC и DPU на базе чипов Xilinx и Pensando и, наконец, FPGA всё той же Xilinx. Долгосрочные перспективы рынка ЦОД AMD оценивает в $125 млрд, из них на долю ускорителей приходится $64 млрд, а классические процессоры занимают лишь второе место с $42 млрд; остальное приходится на DPU, SmartNIC и FPGA.

 Источник: AMD

Источник: AMD

Теперь у AMD есть полный спектр «умных» сетевых решений практически для любой задачи, включая сценарии, требующие сверхнизкой латентности. Эту роль берут на себя адаптеры Solarflare. Более универсальные ускорители Xilix Alveo обеспечат поддержку кастомных сетевых функций и блоков ускорения, а также высокую производительность обработки пакетов. Ускорители могут быть перепрограммированы, что потенциально позволит существенно оптимизировать затраты на сетевую инфраструктуру крупных ЦОД.

 Источник: AMD

Источник: AMD

Гиперскейлерам они уже поставляются, в текущем виде они имеют до двух 200GbE-портов и совокупную скорость обработки до 400 млн пакетов в секунду. Следующее поколение должно увидеть свет в 2024 году, здесь AMD придерживается двухгодичного цикла. Выпускается и 7-нм DPU Pensando Elba, также предоставляющий пару 200GbE-портов. В отличие от Alveo, это более узкоспециализированное устройство, содержащее 144 P4-программируемых пакетных движка. Помимо них имеются выделенные аппаратные движки ускорения криптографии и сжатия/декомпрессии данных.

Уникальный программно-аппаратный стек Pensando, унаследованный AMD, обеспечивает ряд интересных возможностей, востребованных в крупных системах виртуализации на базе ПО VMware — например, полноценную поддержку виртуализации NVMe, поддержку NVMe-oF/RDMA, в том числе и NVMe/TCP, а также полноценное шифрование и туннели IPSec на полной линейной скорости 100 Гбит/с с временем отклика 3 мкс и джиттером в районе 35 нс.

Источник: AMD

Разработки Pensando уже используются такими крупными поставщиками сетевого оборудования и СХД, как Aruba (коммутаторы с DPU) и NetApp (системы хранения данных). Таким образом, AMD вполне вправе говорить о том, что современный высокопроизводительный ЦОД может быть целиком построен на базе технологий компании, от процессоров и ускорителей до интерконнекта и специфических акселераторов.

Современный безопасный ЦОД может быть целиком построен на базе технологий AMD. Источник: AMD

Поддержка доверенных вычислений, включая полное шифрование содержимого памяти делает такие ЦОД и более безопасными, что немаловажно в современном мире, полном кибер-угроз. В том же направлении движутся NVIDIA BlueField и Intel IPU, а также целый ряд других игроков.

Постоянный URL: http://servernews.ru/1067763
07.06.2022 [21:44], Алексей Степин

Arista Networks анонсировала низколатентные коммутаторы 7130LBR и 7130B на базе решений AMD Xilinx и Intel Tofino

Существуют задачи, в которых главным мерилом производительности сети выступает не пропускная способность, а латентность; к таким, например, относится высокочастотный трейдинг. В погоне за неподатливыми наносекундами компания Arista Networks представила новые низколатентные коммутаторы 7130LBR-48S6QD и 7130B-32QD на базе технологий AMD Xilinx и Intel Tofino.

 Источник: Arista Networks

Источник: Arista Networks

Первая модель очень компактна, она занимает в высоту всего 1U, но при этом располагает 48 портами SFP+ и шестью портами QSFP-DD. Фактически& 7130LBR объединяет в себе низколатентный коммутатор L1+, но к нем подключен как классический кремний Broadcom Jericho 2, так и пара высокопроизводительных ПЛИС Xilinx Virtex UltraScale+ (VU9P-3). За точность отвечает тактовый генератор на базе термостабилизированного модуля OCXO. Джиттер практически отсутствует, а латентность во всех 96 линиях 10G не превышает 6 нс.

 Arista 7130LBR и его архитектура. Источник: Arista Networks

Arista 7130LBR и его архитектура. Источник: Arista Networks

Каждая из программируемых матриц имеет по 32 Гбайт памяти DDR4-2400 ECC, что позволяет запускать специализированные приложения, например, MetaMux и MetaWatch (низколатентная агрегация и прецизионные временные отметки). Программное обеспечение хранится на отдельном твердотельном накопителе объёмом 120 Гбайт, при этом, имеется ещё и вспомогательный управляющий x86-процессор Intel, обеспечивающий работу фирменной операционной системы EOS.

 Arista 7130B: детерминированное время отклика 7 нс, платформа Intel Tofino. Источник: Arista Networks

Arista 7130B: детерминированное время отклика 7 нс, платформа Intel Tofino. Источник: Arista Networks

Модель 7130B крупнее, она занимает в высоту уже 2U, все 32 10G-порта используют форм-фактор QSFP-DD, а в основе платформы лежит P4-программируемый кремний Intel Tofino. Совокупно этот коммутатор может обслуживать 256 портов с латентностью «хост-хост» в районе 7 нс. При этом 7130B использует конвейер, реализованный в серии 7170, с теми же возможностями, включающими инкапсуляцию, трансляцию адресов и балансировку нагрузки. Благодаря гибкости Tofino, дополнительный маршрутизатор не требуется. Здесь также имеется восьмиядерный процессор x86, отвечающий за работу EOS.

 Архитектура Arista 7130B. Источник: Arista Networks

Архитектура Arista 7130B. Источник: Arista Networks

В вариантах платформы Arista 7130, оснащённых программируемыми матрицами Xilinx (в зависимости от моделей, от одной до трёх, в 7130LBR их две) обеспечивается наибольшая гибкость и универсальность — поддерживаются программные модули не только самой Arista, но и сторонних разработчиков программного обеспечения; доступна также полная кастомизация. Новинки позволяют одновременно добиться повышения плотности и гибкости L1-инфраструктуры, которую при желании можно дополнить L2/L3-функциями или же реализовать собственные сценарии обработки трафика.

Не обошлось и без модных облачных технологий. Новые коммутаторы поддерживают поддерживает фирменный стек Arista CloudVision, обеспечивающий удобное управление сетью, включая гибкую оркестрацию нагрузки, автоматизацию рабочих процессов, сбор телеметрии и многое другое. Обеспечена интеграция с программными решениями сторонних разработчиков, что упрощает внедрение сетей на базе Arista 7130 в уже существующую инфраструктуру. Подробности доступны на сайте Arista.

Постоянный URL: http://servernews.ru/1067397
23.05.2022 [21:52], Алексей Степин

Учёные выяснили, что радиационный фон может влиять на ПЛИС, но защититься довольно просто

Влияние ионизирующего излучения (радиации) на электронику бесспорно, и является одной из причин широкого внедрения технологии коррекции ошибок. Но если с памятью и процессорами всё более или менее понятно, то существует класс микросхем, для которого этот вопрос был малоисследован, во всяком случае, до недавнего времени. Это программируемые логические схемы, FPGA.

Если обычный радиационный фон для единичных ПЛИС, очевидно, не представляет весомой угрозы, то что насчёт массивов из сотен тысяч работающих сообща микросхем такого типа? Вопрос не праздный ввиду роста популярности FPGA в качестве многофункциональных реконфигурируемых сопроцессоров в сфере HPC. Учёные из Университета Бригама Янга (Brigham Young University), штат Юта, США, дали ответ на этот вопрос.

 Пролетающая частица разряжает SRAM-ячейку. Источник: slideshare.net

Пролетающая частица разряжает SRAM-ячейку. Источник: slideshare.net

Полигоном стал ЦОД в Денвере, штат Колорадо, в котором одновременно работают до 100 тыс. ускорителей на базе ПЛИС. Сами эти микросхемы имеют т.н. «конфигурационную память», отвечающую за хранение реализованной в ПЛИС электронной схемы —  путей, соединений, функциональных блоков. Поддержки ECC она не имеет, и как отметил ведущий исследователь Эндрю Келлер (Andrew Keller), проходящее через эту область ионизирующее излучение может отключать от схемы целые элементы, поскольку под его воздействием меняются хранимые в ячейках памяти значения.

 Влияние ионизирующего излучения на конфигурационную память создаёт SDC. Источник: slideshare.net

Влияние ионизирующего излучения на конфигурационную память создаёт источник «постоянной ошибки». Источник: slideshare.net

В ЦОД масштаба от 100 тыс. FPGA изменение данных в конфигурационной памяти может происходить каждые полчаса, а незаметные повреждения данных (silent data corruption, SDC) накапливаться до 11 дней. Последнее представляет наибольшую угрозу, поскольку все эти дни ошибка накапливается — система всё ещё производит вычисления, но результаты могут быть неверны. Другая опасность — это полный выход ПЛИС из строя, но это заметят те, кто отвечает за работоспособность оборудования в ЦОД.

 FPGA бывают и в защищённом от радиации исполнении. Источник: militaryaerospace.com

FPGA бывают и в защищённом от радиации исполнении. Источник: militaryaerospace.com

Методы защиты, впрочем, довольно просты: механика коррекции ошибок Single Event Upsets (SEU) реализована во всех современных FPGA; есть также механизм периодической перезаписи конфигурации (scrubbing) в случае обнаружения ошибки, который может снизить вероятность повреждения данных в 3–22 раза. К сожалению, большая часть решений на базе FPGA последний механизм не задействует, хотя, как отметили исследователи, крупные гиперскейлеры пользуются им чаще.

Также предполагалось, что по мере освоения более тонких техпроцессов возможно учащение мультибитных ошибок, поскольку пролетающая частица может задеть не одну ячейку памяти, а сразу несколько. Однако эксперименты команды Келлера опровергают это предположение. По всей видимости, производители ПЛИС знают об этом эффекте и стараются защитить от него новые продукты. Существуют также FPGA в защищённом исполнении, которые, как правило, применяются в военной и аэрокосмической технике.

Постоянный URL: http://servernews.ru/1066503
19.05.2022 [19:50], Алексей Степин

Представлен FPGA-модуль AMD Xilinx Kria KR260 для быстрой разработки робототехники

Семейство модулей Xilinx Kria появилось ещё весной прошлого года, позиционировались новинки в качестве платформы для быстрой разработки периферийных (edge) устройств, особенно связанных с системами машинного зрения. Вчера же был представлен новый модуль Kria KR260, предназначенный специально для робототехники. По сравнению с моделью KV260 базовая плата новинки имеет расширенные возможности, особенно в части сетевой подсистемы.

Основой по-прежнему является SoM Kria K26 на базе FPGA Zynq UltraScale+, но в отличие от KV260 новая KR260 имеет не один, а два 240-контактных разъёма. Количество 1GbE-интерфейсов подросло до четырёх, причём два разъёма поддерживают индустриальную версию, а пятый Ethernet-интерфейс (10GbE) выполнен в форм-факторе SFP+. Есть поддержка TSN. Другое важное отличие — поддержка высокоскоростных модулей машинного зрения SLVS-EC (до 860 Мпикс/с) против обычных с интерфейсом MIPI.

 Источник: AMD Xilinx

Источник: AMD Xilinx

Также стоит отметить наличие большого количества разъёмов как для подключения сенсорных систем, например, лидара, так и для силовых ключей, обслуживающих приводы. Платформа реализует полностью предсказуемую внутреннюю сеть, а также может работать в составе кластера из нескольких плат KR260. Имеются развитые аппаратные средства для разгрузки процессоров от вспомогательных задач, вроде планировки движения или объединения сенсоров.

 Характеристики платформы Kria KR260. Источник: AMD Xilinx

Характеристики платформы Kria KR260. Источник: AMD Xilinx

Стоимость новинки довольно высока: сам модуль K26 стоит $300 в базовой версии или $420 в защищённом исполнении (от -40 до +100 °C), а плата KR260 обойдётся ещё в $349. Но это даст покупателю законченную и мощную систему, имеющую массу IO-портов и поддерживающую обработку видео сразу с нескольких HD-камер. Причём для неё уже есть магазин готовых приложений. Похоже, AMD всерьёз нацелилась на рынок робототехнических платформ, где собирается конкурировать с решениями NVIDIA Jetson.

Постоянный URL: http://servernews.ru/1066285
13.05.2022 [21:41], Алексей Степин

AMD поможет Meta* развернуть открытую 5G-инфраструктуру на базе решений Xilinx

Приобретение активов Xilinx открыло для AMD новые горизонты, порой неожиданные. Так, компания недавно заключила соглашение с Meta*, в рамках которого поможет разработать беспроводную 5G-инфраструктуру на базе Open RAN в рамках проекта Evenstar. Сама Meta* заинтересована в том, чтобы подключить к проекту свой метавселенной как можно больше пользователей, в том числе и тех, кто не имеет сегодня качественного доступа в Сеть. Сочетание технологий AMD/Xilinx поможет ей в этом начинании.

В арсенале Xilinx как раз есть подходящая FPGA-матрица RFSoC DFE из серии Zynq UltraScale+, которая уже используется в составе ускорителей T1, созданных специально для нужд телеком-индустрии. Эта ПЛИС позволяет реализовать достаточно производительную для поддержи 5G-радиочасти и в то же время гибкую логику, причём в многоканальном режиме. Сейчас у AMD есть полный набор микрочипов и ПЛИС, необходимых для построения универсальных базовых станций 4G/5G.

 Изображение: AMD/Xilinx

Изображение: AMD/Xilinx

Однако это далеко не единственная инициатива Meta* в области повышения доступности широкополосного интернета. Помимо крупных инвестиций в подводные и наземные волоконно-оптически линии связи, компания разрабатывает самоорганизующеся 5G-сети Terragraph, которые, в частности, уже появились на Аляске, и развивает проект по созданию автономного робота Bombyx, способного самостоятельно прокладывать оптоволокно по линиям электропередач. Компания сейчас настолько увлечена идеей метавселенной, что даже заявила о необходимости выработки новых стандартов сетевой инфраструктуры ближайшего будущего.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Постоянный URL: http://servernews.ru/1065921
04.05.2022 [21:29], Алексей Степин

AMD предложила внедрить в процессоры EPYC ИИ-ускорители на базе FPGA Xilinx

Модульный подход к компоновке процессоров имеет как недостатки, так и преимущества. К первым относится ограниченность межъядерной коммуникации, а ко вторым — возможность легко регулировать количество чиплетов в процессорах, предназначенных для разных сегментов рынка. AMD пошла ещё дальше — теперь чиплеты получили уникальную возможность установки дополнительного кеша сверху основного кристалла (3D V-Cache в Milan-X), а вскоре появятся и чиплеты, включающие не только ядра CPU.

В попытках сделать как можно более универсальный процессор тоже видны два подхода. Intel уповает на инструкции AVX-512, которые получили расширения VNNI для работы с актуальными ИИ-нагрузками. А вскоре к ним добавится ещё и набор AMX. Базовый набор инструкций у AMD не менялся уже достаточно давно, но будущие EPYC вскоре тоже получат возможность работы с ИИ-задачам, как раз благодаря модульной компоновке. Новые патенты AMD говорят о сочетании CPU- и FPGA-чиплетов поглощённой ранее Xilinx в одной SoC.

 Изображения: AMD (via Tom's Hardware)

Изображения: AMD (via Tom's Hardware)

Патенты покрывают два способа интеграции новых кристаллов : либо добавлением нового чиплета по соседству с другими, либо использование 3D-стекинга как в случае с 3D V-Cache. В последнем случае возникают некоторые трудности с теплоотводом при размещении ускорителей непосредственно над CPU-чиплетами, поэтому AMD предлагает устанавливать новые чипы на IO-модуль.

Новые процессоры AMD EPYC, имеющие гетерогенную чиплетную архитектуру должны увидеть свет уже в 2023 году в поколении Zen 4 в виде 5-нм платформ Genoa (до 96 ядер) и Bergamo (128 ядер). И это только начало, ведь ничто не мешает использовать и другие виды чиплетов, от GPU и DPU до специфических DSP и даже ASIC. Впрочем, скорее всего, подобные чипы будут востребованы относительно небольшим числом клиентов или вообще будут создавать на заказ, как это ранее уже произошло с Intel.

Первые гибридные процессоры Xeon с FPGA компании Altera, которую Intel в итоге купила годом позже, были анонсированы ещё в 2014 году. По неофициальным данным, эти чипы создавались для обслуживания и ускорения работы СУБД Oracle. Следующая попытка была предпринята уже в поколении Skylake-SP. Тогда появился чип Intel Xeon Gold 6138P с ПЛИС Arria 10 GX 1150, соединённой с ядрами процессора посредством UPI. Одна из сфер его применение — телекоммуникации.

Постоянный URL: http://servernews.ru/1065294
09.03.2022 [01:35], Алексей Степин

Intel представила FPGA серии Agilex M с рекордно быстрой подсистемой памяти — почти 1,1 Тбайт/с

Intel анонсировала новые ПЛИС Agilex M-Series. Литера «M» в названии означает Memory, и в анонсе указано, что новинки обладают беспрецедентно производительной для FPGA подсистемой памяти, что делает их востребованными в добыче криптовалют и сетевых приложениях, а также везде, где пропускная способность памяти играет решающую роль.

Действительно, характеристики этой подсистемы впечатляют: на борту новых чипов устанавливается по два кристалла HBM2e с совокупной пропускной способностью 820 Гбайт/с, что на почти на две трети больше, нежели у предыдущего лидера в этой области, FPGA Stratix 10 MX. В зависимости от конкретной модели, объём набортного банка HBM2e может достигать 32 Гбайт. Но это не всё — у Agilex M есть ещё и восемь каналов для DDR5-памяти, что суммарно даёт почти 1,1 Тбайт/с.

 Изображения: Intel

Изображения: Intel

За тесную связь двух типов оперативной памяти отвечает шина Memory Network-on-Chip (7,52 Тбайт/с). Это первые FPGA Intel, выпущенные с использованием техпроцесса Intel 7 (10-нм SuperFin). Более того, это, по словам Intel, первые ПЛИС, поддерживающие когерентность кешей и памяти с процессорами Intel Xeon благодаря поддержки CXL. Наконец, Agilex M единственные в природе FPGA, способные одновременно работать с памятью HBM2e, DDR5 и Optane.

С внешним миром чипы общаются посредством PCI Express 5.0 и 400GbE-интерфейсов (116G-трансирверы). Intel называет свои новые детища лучшими решениями в области цифровой обработки сигналов, а в удельной производительности интерконнекта (в пересчёте на потребление) они более чем вдвое превосходят ближайшего соперника в лице Versal от Xilinx, принадлежащих сейчас AMD.

Поскольку FPGA априори универсальны, конкретную область применения новинок назвать сложно, но с учётом рекордных показателей подсистем памяти и наличия 12300 DSP-блоков (18 Тфлопс FP32, 88,6 Топс INT8), это может быть любой сценарий, связанный с обработкой серьёзных потоков данных: DPU/IPU на 400G/800G-сетях, тестовые стенды для 5G/6G-сетей, радары и прочие задачи обработки радиосигналов, машинное обучение и HPC, блокчейн и добыча криптовалют.

Постоянный URL: http://servernews.ru/1061548
08.03.2022 [21:24], Алексей Степин

AMD и Xilinx анонсировали обновлённый ИИ-ускоритель VCK5000

Ранее ПЛИС Xilinx Versal уже обзавелись поддержкой HBM2e и на основе этой флагманской FPGA была создана платформа для инференс-систем VCK5000. Сейчас AMD анонсировала новую, существенно улучшенную версию этой платформы. Правда, речи об использовании сборок с памятью HBM не идёт, это пока прерогатива серии Alveo. Если верить заявлениям компании, новая версия в три раза производительнее первоначальной, а по общей стоимости владения (TCO) вдвое выгоднее NVIDIA T4.

Последнее неудивительно, так как T4 ведёт свою родословную от классических GPU и, неся на борту не только 320 тензорных ядер, но и 2560 ядер CUDA, не во всех задачах может похвастаться высокой энергоэффективностью. По оценкам Xilinx, VCK5000 может достигать 90 % от теоретической производительности (в Топс), а у решений NVIDIA, по словам «красных», этот показатель варьируется в пределах 34–42 %. Правда, на смену T4 приходит A2.

В основе VCK5000 лежит новейшая вариация Versal ACAP (7 нм), оптимизированная для применения в ИИ-системах. Именно на инференс-алгоритмах производительность новой версии была повышена в 3 раза. AMD говорит, что в новой версии удалось минимизировать простой логических блоков в ожидании данных из памяти, практически избавившись от «тёмного кремния».

Ускоритель выполнен в виде полноразмерной двухслотовой платы расширения с PCIe 4.0 x8. Он имеет конфигурируемый TDP (от 75 до 225 Вт), оснащён 16 Гбайт DDR4-памяти, 100GbE-подключением (два QSFP28) и развивает до 125 Топс на INT8-операциях при частоте ядер 1,25 ГГц. Теоретическая пиковая производительность новинки составляет 145 Топс. Это сопоставимо с показателями NVIDIA T4 (130 Топс), как и цена — $2745 против $2410.

Главное предназначение AMD VCK5000 — использование в качестве тестовой платформы при разработке инференс-систем и систем цифровой обработки сигналов на базе FPGA. Но благодаря гибкости, обеспечиваемой применением FPGA, ничто не мешает использовать данный ускоритель и в других целях. Также очевидно, что с обретением активов Xilinx AMD продолжит активно развивать направление ПЛИС-ускорителей для различных задач, включая HPC.

Постоянный URL: http://servernews.ru/1061554
10.02.2022 [23:14], Алексей Степин

CESNET и Reflex CES представили свой первый 400GbE-адаптер с PCIe 5.0 и CXL

CESNET, альянс чешских университетов и национальной академии наук, поставил перед собой задачу разработать высокоскоростные адаптеры для использования в современных СХД и HPC-системах. Совместно с французской компанией Reflex CES, специализирующейся на разработке FPGA-решений, они представили первый европейский SmartNIC XpressSX AGI-FH400G класса 400GbE. И это первое аппаратное решение в рамках проекта Liberouter, цель которого — создание высокоскоростных сетевых платформ на базе ПЛИС.

 Изображения: www.reflexces.com

Изображения: www.reflexces.com

Новый адаптер интересен тем, что он является одной из пока немногих карт расширения, поддерживающих PCIe 5.0 и CXL. В его основе лежит мощная ПЛИС Intel серии Agilex I-Series c 2,7 млн логических элементов, 8,5 тыс блоков DSP и 260 Мбит быстрой памяти на кристалле. Дополнительно она имеет собственный четырёхъядерный процессор Arm Cortex-A53.

 Блок-схема XpressSX AGI-FH400G

Блок-схема XpressSX AGI-FH400G

В качестве основного интерфейса используется стандартный разъём PCIe 5.0 x16, но на плате установлено ещё две пары HSI-коннекторов для подключений PCIe 5.0 и CXL. Подсистема памяти представлена тремя независимыми банками: 4 Гбайт DDR4-2666 на борту (общей для CPU и FPGA) + два слота SO-DIMM для 32-Гбайт модулей.

 Программно-аппаратная архитектура Liberouter NDK

Программно-аппаратная архитектура Liberouter NDK

Как уже было сказано, целью проекта было создание современного сетевого ускорителя, способного с минимальными задержками обрабатывать данные на скорости 400 Гбит/с, и разработчикам удалось создать базовый набор ядер для ПЛИС с поддержкой DMA.

 Новый ускоритель XpressSX AGI-FH400G имеет двухслотовый форм-фактор

Новый ускоритель XpressSX AGI-FH400G имеет двухслотовый форм-фактор

В комплект поставки входят все необходимые средства разработки, включая набор IP-блоков, скрипты для синтеза конечного дизайна ускорителя, драйверы и программный стек для Linux с поддержкой DPDK, а также пользовательские библиотеки и инструментарий для настройки компонентов. Программно архитектура новинки полностью модульная и масштабируемая, что позволит создавать на её основе гибкие и высокопроизводительные сетевые решения класса 400GbE, и не только их.

Постоянный URL: http://servernews.ru/1059952
12.01.2022 [22:39], Алексей Степин

SMART Modular Kestral: вычислительная память на базе Optane PMem

В рамках мероприятия Intel FPGA Technology Day, которое прошло в конце 2021 года, компания Intel и её партнёры рассказали о последних достижениях в области разработки продуктов на базе FPGA, а также показали свои новейшие программные и аппаратные решения. Среди последних оказался и модуль Kestral от SMART Modular Technologies, который был анонсирован ещё весной.

Модули памяти Optane PMem продвигаются Intel достаточно давно, и это действительно уникальная по ряду параметров разработка. Такая память обладает достаточно высокой производительностью, чтобы работать в качестве «расширителя» обычной DRAM, но вместе с тем располагает основным свойством флеш-памяти — энергонезависимостью. При этом Optane PMem в пересчёте на единицу объёма стоят дешевле DRAM и позволяют набрать более объёмный пул памяти.

 Изображения: SMART Modular Technologies

Изображения: SMART Modular Technologies

Но у Optane PMem есть один существенный недостаток — если SSD с этой памятью универсальны, то для PMem требуется система на базе Intel, причём процессоры Xeon Scalable первого поколения не поддерживается. Это резко ограничивает сферу применимости удачной в целом технологии. И модуль Kestral призван решить данную проблему.

Kestral, в целом, занимает некое промежуточное положение между накопителем и памятью. Это универсальное решение в виде FHHL-платы PCIe 4.0, сочетающее в себе сразу несколько полезных технологий. Kestral может включать SoC Cortex Arm-A53 с DDR4 ECC объёмом 2 Гбайт и eMMC-накопителем на 8 Гбайт. Собственно говоря, SoC является частью FPGA Intel Stratix 10 DX. А раз есть ПЛИС, есть и ряд готовых IP-блоков для ускорения различных задач.

 Архитектура расширения памяти, предлагаемая SMART

Архитектура расширения памяти, предлагаемая SMART

Наконец, на плате Kestral имеется четыре DIMM-разъёма с поддержкой DDR4 и Optane PMem. Каналов памяти у Kestral два, они поддерживают смешанную работу DRAM и Optane, но максимальный объём в 2 Тбайт достигается при установке четырёх 512-Гбайт PMem-модулей. Латентность заявлена в районе менее 350 нс — выше, чем у подключаемых напрямую к CPU модулей (около 100 нс), но это искупается универсальностью Kestral.

Ограничений на тип процессора в хост-системе нет — разработчики говорят о поддержке любых систем с любыми архитектурами, лишь бы только те располагали стандартной шиной PCIe 3.0/4.0. При этом плата обходится стандартным пассивным радиатором и охлаждается за счёт вентиляторов сервера, имея теплопакет не выше 150 Вт. Аналогичный модуль, продемонстрированный Intel и Meta* (Facebook*), сейчас используется для практического тестирования CXL-памяти.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Постоянный URL: http://servernews.ru/1057854
Система Orphus