Материалы по тегу: dpu

28.07.2021 [15:27], Алексей Степин

Pliops анонсировала высокопроизводительный DPU XDP Extreme

Концепция сопроцессора данных (DPU) продолжает набирать популярность — анонсы новых решений в этой области следуют один за другим. Компания Pliops, ранее представившая ускоритель для СУБД, представила свой новый продукт — XDP Extreme, который имеет более широкую сферу применения и предназначен для разгрузки процессоров современных систем хранения данных, целиком построенных на энергонезависимой памяти.

Внешне новинка выглядит как обычная плата расширения с разъёмом PCIe x8, в основе лежит мощная ПЛИС производства Xilinx. В будущем компания планирует заменить её на более экономичный ASIC-вариант. У XDP Extreme нет сетевых портов, вместо этого разработчики сконцентрировали свои усилия на ускорении общих для СХД задач и повышении эффективности использования пула флеш-памяти.

XDP использует так называемый KV Storage Engine — движок, работающий с Key-Value данными. За счёт фирменного API обеспечена совместимость со всеми приложениями, которые используют KV-подход. Уровнем ниже всё так же находится NVMe, как протокол, наиболее отвечающий устройствам на базе флеш-памяти. KV Storage Engine берёт на себя всю обработку ключей БД, включая их сортировку, индексацию и сборку мусора, а значит, этим не придётся заниматься центральным процессорам системы. Также ускоритель обеспечивает разгрузку ЦП при сжатии, отвечает за защиту от сбоев SSD и выполняет шифрование томов с использованием AES-256.

Востребованность XDP высока: KV-движки сегодня используются в подавляющем большинстве баз данных, также они применяются в комплексах машинной аналитики на базе Elastic или Hadoop и в распределённых файловых системах. Эффективность XDP Extreme, если верить данным Pliops, внушает уважение: даже на операциях чтения можно добиться двухкратного прироста линейной производительности, а выигрыш при записи может составлять и три-четыре раза. Более того, флеш-массив под управлением XDP оказывается быстрее, нежели классический RAID0. А снижение коэффициента усиления записи (write amplification) позволяет использовать недорогую, но априори менее надёжную память QLC. Впрочем, с Optane новый DPU тоже прекрасно работает.

Фактически, компания говорит о производительности, сопоставимой с решениями на базе DRAM, но с куда более низкой стоимостью владения. Экономия достигается и за счёт более эффективного использования SSD: в частности, при равном уровне надёжности с классическим массивом RAID 10, система на базе Pliops XDP позволяет обойтись меньшим количеством серверов и накопителей, что, естественно, отразится и на стоимости. Поставки новых ускорителей Pliops XDP Extreme уже развёрнуты.

Постоянный URL: http://servernews.ru/1045368
20.07.2021 [13:07], Алексей Степин

Viking и Kalray совместно создадут NVMe-oF СХД FLASHBOX нового поколения

Компания Kalray активно развивает свою концепцию сопроцессора данных (DPU) и имеет в своём арсенале соответствующие ускорители, о которых мы не так давно рассказывали в одной из предыдущих заметок. На днях Kalray заключила ещё один стратегический союз, на этот раз с Viking Enterprise Solutions, крупным OEM-поставщиком серверного оборудования, включая системы хранения данных.

Сама Viking довольно длительное время концентрирует свои усилия в направлении создания систем хранения данных, особенно с поддержкой популярного стека технологий NVMe over Fabrics. В начале лета она уже анонсировала СХД VDS2249R на 24 накопителя NVMe с портами 100GbE. Системы такого класса создают огромный поток данных, нагружающий центральные процессоры СХД.

СХД Viking VDS2249R имеет модульную конструкцию

СХД Viking VDS2249R имеет модульную конструкцию

И снять с них нагрузку как раз и помогут разработки Kalray, которая располагает уникальным многоядерным DPU Coolidge MPPA, способным «переварить» 12 Гбайт/с при крайне невысоком уровне задержек. Компании заключили договорённость о разработке нового класса решений NVMe-oF на базе вышеупомянутой системы VDS2249R.

Kalray не без оснований считает, что за DPU —  будущее дезагрегированных СХД

Kalray не без оснований считает, что за DPU — будущее дезагрегированных СХД

Напомним, новая СХД Viking компактна, она занимает в высоту всего 2U, но при этом вмещает 24 накопителя в формате U.2. Каждый из двух контроллеров данной системы хранения данных поддерживает платы расширения с интерфейсом PCI Express 3.0 и позволяет производить замену практически всех компонентов в «горячем» режиме.

Ускоритель Kalray K200-LP идеально впишется в состав СХД, поскольку представляет собой низкопрофильную плату. Несмотря на компактность, он обладает внушительными ресурсами, имея на борту 80-ядерный процессор Coolidge MPPA и до 32 Гбайт собственной оперативной памяти DDR4. Сочетание технологий Viking и Kalray приведёт к созданию системы FLASHBOX нового поколения, предназначенной для задач машинного обучения, аналитики, обработки изображений и видео в реальном времени, а также любых других сценариев подобного рода. Официальный анонс FLASHBOX запланирован на конец сентября.

Постоянный URL: http://servernews.ru/1044680
14.07.2021 [12:15], Алексей Степин

DPU Kalray пропишутся в облаке Scaleway

Kalray, Vates и облачный провайдер Scaleway объявили о заключении союза с целью разработки новых решений в области виртуализации, в основе которых будут лежать DPU. На практике DPU действительно можно назвать востребованной технологией, достаточно вспомнить о том, какие объемы данных сегодня генерируются и обрабатываются в крупных ЦОД — к примеру, астрономы говорят уже о петабайтах , и весь этот объём тяжёлым бременем ложится на процессоры, которые могли бы быть заняты более полезной работой.

Основания для оптимизма у нового тройственного союза есть: Kalray уже анонсировала NVMe-oF-ускорители K200-LP на базе процессора Coolidge MPPA, способные «переварить» поток данных на скорости до 12 Гбайт/с с задержками в районе 30 мкс, а на случайных операциях развивающие около 2 миллионов IOPS. Поскольку речь идёт о системах виртуализации, Vates отвечает за разработку гипервизора нового поколения, способного пользоваться ресурсами DPU, коих немало — 80 ядер MPPA и до 32 Гбайт памяти DDR4-3200. В основу ляжет гипервизор XCP-ng с открытым кодом.

Kalray K200-LP

Kalray K200-LP

Ну а крупный поставщик облачных сервисов Scaleway должен внедрить разработанные Vates и Kalray технологии на практике. Как считает компания, сочетание DPU и XCP-ng является идеальным выбором для энергоэффективных ЦОД. Коммерческий продукт на базе этих решений должен увидеть свет уже во второй половине этого года.

Постоянный URL: http://servernews.ru/1044188
13.07.2021 [17:07], Андрей Галадей

NVIDIA и Palo Alto Networks улучшают киберзащиту сетей с помощью DPU

Palo Alto Networks совместно с NVIDIA разработали первый, по словам компаний, виртуальный межсетевой экран нового поколения (NGFW), который активно использует возможности BlueField — сопроцессора для обработки данных (DPU). Он ускоряет фильтрацию пакетов и пересылку данных, снимая нагрузку с центрального процессора.

Это позволяет повысить скорость обработки до 5 раз, а также задействовать интеллектуальную фильтрацию и другие функции работы с трафиком. В целом, такое программно-аппаратное решение позволит существенно увеличить безопасность центров обработки данных и корпоративных сетей. Как отмечается, система поддерживает пропускную способность до 100 Гбит/с.

Разработчики утверждают, что подобная система — первая на рынке. Она способна обнаруживать новые угрозы в сети, предотвращать кражу данных, отслеживать вредоносное ПО и так далее. При этом отмечается, что в обычных случаях до 80 % сетевого трафика в ЦОД проверяется брандмауэрами в принципе. Речь идёт о мультимедийных данных (потоковые видео, музыка и прочее), зашифрованных сессиях и так далее. Их проверка зачастую просто перегрузит CPU брандмауэров, потому они обычно избегают дополнительной инспекции.

Чтобы решить эту проблему, решение NVIDIA и Palo Alto Networks задействует службу Intelligent Traffic Offload (ITO), которая проверяет сетевой трафик, чтобы определить, выиграет ли каждый сеанс от проверки безопасности. Иначе говоря, ITO анализирует потенциальную нагрузку на DPU, чтобы понять, нужно ли проверять пакеты или нет. Это позволяет перенаправлять пакеты через межсетевой экран или напрямую потребителям.

Постоянный URL: http://servernews.ru/1044097
12.07.2021 [20:06], Владимир Агапов

Graid представила RAID-ускоритель SupremeRAID SR-1000 для NVMe SSD и NVMe-oF

Компания Graid Technology  разработала программно-аппаратное решение SupremeRAID, которое поможет устранить узкие места в RAID-системах на базе NVMe-накопителей, подключённых как напрямую, так и по сети (NVMe-oF). Аппаратная часть решения представлена однослотовой (100 × 197,5 мм) картой SupremeRAID SR-1000 с интерфейсом PCIe 3.0 x16, которая потребляет 75 Вт.

Карта оснащена высокопроизводительным «умным» процессором для обработки всех операций RAID и поддерживает различные интерфейсы NVMe (U.2, M.2, AIC) а также SAS и SATA. По заявлению производителя, это первая в мире карта, которая позволяет пользователям добавлять такие функции как сжатие, шифрование и тонкое выделение ресурсов, а также позволяющая организовать NVMe-oF RAID-массив.

Программная часть разработана для Linux (CentOS 8.3, RHEL 8.4, Ubuntu 20.04, openSUSE Leap 15.2, SLES 15 SP2) и состоит из модуля ядра (graid.ko), CLI-инструмента управления (graidctl) и демона управления обработкой запросов (graid_server). Реализована поддержка массивов RAID 0/1/5/6/10 с максимальным числом физических дисков 32 (до 4 групп дисков, по 8 шт. в каждой). Максимальная ёмкость дисковой группы ограничивается только физическими характеристиками накопителей.

Архитектура SupremeRAID, основанная на виртуальном NVMe-контроллере и PCIe-ускорителе, берущем на себя все операции с RAID, высвобождает ресурсы CPU и облегчает интеграцию с современными программно компонуемыми системами (SCI) для получения 100% доступной производительности SSD. При этом возможна реализация облачного подхода при работе с хранилищем.

Вычислительная мощность применённого процессора позволяет отказаться от использования модулей кеширования для достижения удовлетворительной производительности, а также от резервных батарей, обеспечивающих сохранность данных в кеше в случае отключения питания. А поддержка NVMe-oF для организации RAID-массива позволяет дезагрегировать ресурсы хранения, предоставляя пользователям возможности их более полного использования — в независимости от физического местонахождения скорость будет практически такой же, как и при прямом подключении.

Заявленная производительность составляет более 6 млн. IOPS, а скорость работы массива на базе накопителей с интерфейсом PCIe 3.0 и PCIe 4.0 составляет 25 и 100 ГиБ/с соответственно. И это похоже на правду, если верить данным Gigabyte, которая одной из первых применила это решение на практике. Её 2U-сервер R282-Z94, включающий два процессора AMD EPYC 7742, 20 NVMe SSD Kioxia CM6-R и SupremeRAID, позволил провести серию тестов производительности подсистемы хранения данных.

gigabyte.com

gigabyte.com

Массив RAID-5, состоящий из трёх накопителей CM6-R в OLAP-задачах показывает 4,6 млн IOPS на случайном чтении и 765 тыс. IOPS на случайной записи, обеспечивая при этом чрезвычайно низкую задержку. Даже в случае отказа одного из SSD, производительность системы все равно превышает 1 млн IOPS, сохраняя высокую доступность приложения.

Массив RAID-5, состоящий из 20 накопителей CM6-R, обеспечивает очень большую ёмкость с последовательным чтением на уровне 91 ГиБ/с и последовательной записью 7 ГиБ/с. Наконец, массив RAID-10 из те же 20 накопителей может обеспечивать последовательное чтение 104 ГиБ/с и последовательную запись 30 ГиБ/с, что почти в 8 раз выше, чем у традицонных RAID-контроллеров.

gigabyte.com

gigabyte.com

Такой результат делает решение привлекательным для приложений, требующих высокой скорости чтения, таких как машинное обучение, анализ больших данных и т.д. По словам Лиандера Ю (Leander Yu), генерального директора GRAID, сотрудничество с GIGABYTE и Kioxia позволило компании представить технологию хранения и защиты данных, обеспечивающую лучшую в отрасли производительность для рабочих нагрузок ИИ, IoT и 5G в новом поколении All-Flash СХД.

Постоянный URL: http://servernews.ru/1044014
30.06.2021 [22:44], Алексей Степин

Marvell анонсировала 5-нм DPU Octeon 10: 36 ядер ARM Neoverse N2, 400GbE, PCIe 5.0 и DDR5

Концепция ускорителя для работы с данными, выделенного DPU, продолжает набирать популярность. В последнее время целый ряд компаний представил свои решения. А на днях очередь дошла до крупного разработчика микроэлектроники, компании Marvell, которая анонсировала DPU серии Octeon 10.

Новые сопроцессоры построены на основе наиболее совершенного 5-нм техпроцесса TSMC и должны на равных сражаться с такими соперниками, как ускорители NVIDIA BlueField. Сама Marvell известна разработкой собственных вычислительных ядер, однако в Octeon 10 от этого подхода компания отошла, вернувшись к лицензированию ядер ARM — в основу новой серии чипов легли ядра Neoverse N2.

В основе данной архитектуры лежит набор команд ARM v9, появившийся не так уж давно. В сравнении с решениями на базе ARM v8.x эта архитектура может обеспечивать до 40% прироста в производительности, в том числе, за счёт поддержки 128-битных векторных расширений SVE2 и развитой подсистемы кешей. Процессорные ядра в Octeon 10 располагают по 1 и 2 Мбайт кешей второго и третьего уровня на каждое ядро.

В составе новой SoC также присутствуют блоки ускорения сетевых задач и криптографические акселераторы. Кроме этого, кремний Octeon 10 получил и сетевой коммутатор, обеспечивающий работу 16 портов Ethernet со скоростью 50 Гбит/с. «Прокормить» столь требовательную «семью» непросто, но в плане подсистем ввода-вывода новые DPU также отвечают современным реалиям: они рассчитаны на работу с памятью DDR5-5200 и поддерживают интерфейс PCI Express 5.0, блоки SerDes относятся к поколению 56G.

Отдельного упоминания заслуживает движок векторной обработки пакетов (Vector Packet Processing Engine), способный объединять в единую серию сетевые пакеты и «переваривать» их одновременно, как векторные данные. Такой подход позволяет серьёзно снизить латентность, что для DPU очень важно. Имеются в составе Octeon 10 и средства для работы с алгоритмами машинного обучения, причём каждый «тайл», поддерживающий INT8 и FP16, имеет свой объём SRAM.

Пока семейство Octeon 10 представлено четырьмя моделями, младшая из которых может содержать до 8 ядер Neoverse N2, а старшая — до 36 таких ядер, причём о масштабировании подсистемы памяти разработчики также подумали и число контроллеров DDR5 в новых чипах варьируется от 2 до 12. Несмотря на столь солидные характеристики, теплопакеты удалось удержать в разумных рамках, и даже у наиболее мощной версии DPU400 TDP составляет всего 60 Ватт.

В настоящее время Marvell Octeon 10 уже находится в производстве, первые же партии новых чипов должны поступить к заказчикам во второй половине этого года. Столь многогранные DPU должны найти применение в самых разных сценариях, от поддержания инфраструктуры 5G RAN до работы в составе облачных систем, а также в высокопроизводительных маршрутизаторах.

Постоянный URL: http://servernews.ru/1043235
17.06.2021 [01:48], Владимир Мироненко

Kalray представила DPU K200-LP для NVMe-oF СХД: 2 × 100GbE, 12 Гбайт/с и 2 млн IOPS

Kalray представила низкопрофильный адаптер K200-LP для построения систем хранения данных NVMe-oF. K200-LP пополнил семейство полностью программируемых многоцелевых DPU Kalray на базе уникальных процессоров Coolidge MPPA (Massively Parallel Processor Array) собственной разработки.

K200-LP, по словам разработчиков, является идеальным решением для производителей устройств хранения данных и поставщиков облачных услуг для создания устройств хранения следующего поколения, поскольку превосходит аналогичные решения с точки зрения производительности на Ватт и на доллар. K200-LP полностью оптимизирована для растущего рынка решений хранения на базе NVMe и NVMe-oF, от облака до периферии.

Kalray

Kalray

Kalray K200-LP представляет собой низкопрофильную карту с двумя портами 100GbE (QSFP28) и интерфейсом PCIe 4.0 x16. Она оснащена 80-ядерным процессором MPPA, работающим на частоте до 1,2 ГГц, и от 8 до 32 Гбайт DDR4-3200. Карта способна обслуживать до 64 NVMe SSD и обеспечивает пропускную способность на уровне 12 Гбайт/с при последовательном чтении/записи и порядка 2 млн IOPS на случайных операциях. При этом средняя задержка составляет всего 30 мкс.

Новинка совместима со стандартами RoCE v1/v2 и NVMe/TCP, а поддержка MPPA уже есть в Linux 5.x. Для разработки ПО предоставляется фирменный SDK AccessCore. K200-LP производится тайваньской Wistron и уже доступна для приобретения. Ранее компании совместно представили СХД FURIO1200 на базе DPU K200.

Постоянный URL: http://servernews.ru/1042196
14.06.2021 [21:25], Владимир Мироненко

Intel анонсировала IPU, новый класс устройств для дата-центров будущего

Компания Intel в ходе саммита Six Five анонсировала IPU (Infrastructure Processing Unit), ещё одного представителя xPU в терминологии «синих». В данном случае — это программируемое сетевое устройство, разработанное c целью снизить накладные расходы и высвободить ресурсы CPU, перенеся задачи виртуализации хранилища и сети, управления безопасностью и изоляцией на выделенные аппаратные блоки в составе IPU.

Это позволит гиперскейлерам и облачным операторам перейти на полностью виртуализированные хранилище и сетевую архитектуру, сохранив при этом высокую производительность и предсказуемость работы, а также высокую степень контроля. IPU интеллектуально управляет ресурсами IT-инфраструктуры на системном уровне, позволяя гибко разворачивать и (пере-)конфигурировать рабочие нагрузки.

В условиях роста популярности микросервисных архитектур такой подход очень кстати — Intel приводит данные Google и Facebook — от 22 до 80 % циклов CPU может уходить только на коммуникацию между микросервисами, а не на выполнение полезной нагрузки. ЦОД нового поколения потребуется новая же интеллектуальная архитектура, в которой масштабные распределённые и разнородные вычислительные системы работают вместе и легко сочетаются, формируя единую платформу.

«IPU — это новый класс технологий, который является одним из стратегических столпов нашей облачной стратегии. Он расширяет возможности SmartNIC и предназначен для устранения сложности и неэффективности современного дата-центра . В Intel стремятся создавать решения и внедрять инновации вместе со своими клиентами и партнерами — IPU является примером такого сотрудничества», — заявил Гвидо Аппенцеллер (Guido Appenzeller), технический директор Intel Data Platforms Group.

Если всё это вам кажется знакомым, то в этом нет ничего удивительного. Аналогичные по задачам и подходу решения, именуемые DPU (Data Processing Unit), активно развивают NVIDIA, Fungible и другие вендоры. DPU объединяет в рамках одного устройства сетевой контроллер, ядра общего назначения, ускоритель (GPU, FPGA, ASIC), память и движки для ускорения отдельных операций. Но в данном случае гораздо важнее программная, а не аппаратная часть, так как современные SmartNIC по «железу» недалеки от DPU.

У Intel уже есть свои варианты IPU/DPU на базе Xeon D и FPGA. По словам компании, в результате сотрудничества с большинством гиперскейлеров она уже является лидером по объёму продаж на рынке IPU. Первая IPU-платформа Intel на базе FPGA развёрнута у нескольких поставщиков облачных услуг, а вариант IPU с ASIC находится на стадии тестирования. Свои IPU-решения Intel тестирует совместно с Microsoft Azure, Baidu, JD Cloud&AI и VMware.

«Еще до 2015 года Microsoft впервые использовала реконфигурируемые SmartNIC в Intel-серверах нескольких поколений для разгрузки и ускорения сетевого стека и стека хранения. SmartNIC позволяет нам высвободить ядра CPU, увеличить пропускную способность и количество IOPS для хранилищ, добавлять новые возможности после развёртывания и обеспечивать предсказуемую производительность для наших облачных клиентов. — говорит Эндрю Патнэм (Andrew Putnam) из Microsoft. — Intel с самого начала является нашим надёжным партнером, и мы рады видеть, что Intel продолжает продвигать чёткое отраслевое видение ЦОД будущего с IPU».

Однако нельзя не отметить, что гиперскейлеры — это отдельный особый рынок, на котором кастомные решения являются нормой. Насколько обычные операторы ЦОД и корпоративные заказчики будут готовы внедрять IPU, вопрос открытый. Больше подробностей о программных и аппаратных особенностях новинок Intel обещала предоставить в октябре.

Постоянный URL: http://servernews.ru/1041891
01.06.2021 [09:00], Владимир Мироненко

Портфолио сертифицированных NVIDIA систем пополнилось новыми решениями от крупных производителей

На COMPUTEX 2021 компания NVIDIA поделилась информацией о расширении экосистемы сертифицированных партнёрских решений на базе её продуктов. В том числе с анонсированными на GTC'21 ускорителями A100 и A40, A10 и A30, а также DPU BlueField-2.

В частности, ASUS, Dell Technologies, GIGABYTE, QCT и Supermicro, представили на выставке COMPUTEX 2021 новые системы на базе NVIDIA BlueField-2. Добавим, что внедрение DPU BlueField-2 широко поддерживаются лидерами рынка программирования, включая RedHat и VMware. Чтобы помочь разработчикам создавать приложения на базе BlueField-2 DPU, Red Hat бесплатно предоставляет им подписки Red Hat Developer для Red Hat Enterprise Linux. Как ожидается, серверы с ускорением DPU BlueField-2 выйдут в этом году, некоторые из которых будут участвовать в программе сертифицированных систем NVIDIA.

Также в ходе выставки NVIDIA анонсировала десятки новых серверов, сертифицированных для работы с программным стеком NVIDIA AI Enterprise, отметив быстрое расширение программы NVIDIA-Certified Systems, которая теперь включает более 50 систем от ведущих мировых производителей: Advantech, Altos, ASRock Rack, ASUS, Dell Technologies, GIGABYTE, Hewlett Packard Enterprise, Lenovo, QCT, Supermicro и других. Кроме того, Dell Technologies, HPE, Nettrix и Supermicro стали предлагать сертифицированные серверы на платформе NVIDIA HGX.

Растущий список сертифицированных NVIDIA систем включает крупнейших производителей x86-серверов, что позволяет привнести возможности ИИ в широкий спектр отраслей, включая здравоохранение, производство, розничную торговлю и финансовые сервисы. Доступные в широком диапазоне цен и уровней производительности системы включают ускорители NVIDIA A100, A40, A30 или A10 с тензорными ядрами, а также DPU NVIDIA BlueField-2 или адаптеры NVIDIA ConnectX-6.

Сертификация NVIDIA будет распространяться на серверы Arm CPU, которые появятся в 2022 году Расширяя экосистему Arm до уровня предприятия для высокопроизводительных вычислений (HPC) и ИИ, компании GIGABYTE и Wiwynn планируют предлагать новые серверы с Arm-процессорами и ускорителями NVIDIA Ampere.

GIGABYTE в сотрудничестве с NVIDIA предлагает инструментарий разработчика Arm HPC Developer Kit, который предоставляет интегрированную программно-аппаратную платформу разработки ПО для HPC, ИИ и научных вычислений. Платформа включает в себя процессор Ampere Altra на базе ядер Arm Neoverse, два ускорителя A100, два DPU BlueField-2 и NVIDIA HPC SDK.

Сертифицированные NVIDIA системы с ускорителями Ampere уже доступны для потребителей. Системы с DPU NVIDIA BlueField-2 будут доступны в конце этого года. Системы на базе процессоров Arm появятся в 2022 году, но разработчики уже могут подать заявку на получение комплекта NVIDIA Arm HPC.

Постоянный URL: http://servernews.ru/1040790
15.04.2021 [21:24], Игорь Осколков

DPU BlueField — третий столп будущего NVIDIA

Во время открытия GTC’21 наибольшее внимание привлёк, конечно, анонс собственного серверного Arm-процессора NVIDIA — Grace. Говорят, из-за этого даже акции Intel просели, хотя в последних решениях самой NVIDIA процессоры x86-64 были нужны уже лишь для поддержки «обвязки» вокруг непосредственно ускорителей. Да, теперь у NVIDIA есть три точки опоры, три столпа для будущего развития: GPU, DPU и CPU. Причём расположение их именно в таком порядке неслучайно.

У процессора Grace, который выйдет только в 2023 году, даже по современным меркам «голая» производительность не так уж высока — в SPECrate2017_int его рейтинг будет 300. Но это и неважно потому, что он, как и сейчас, нужен лишь для поддержки ускорителей (которые для краткости будем называть GPU, хотя они всё менее соответствуют этому определению), что возьмут на себя основную вычислительную нагрузку.

Гораздо интереснее то, что уже в 2024 году появятся BlueField-4, для которых заявленный уровень производительности в том же SPECrate2017_int составит 160. То есть DPU (Data Processing Unit, сопроцессор для данных) формально будет всего лишь в два раза медленнее CPU Grace, но при этом включать 64 млрд транзисторов. У нынешних ускорителей A100 их «всего» 54 млрд, и это один из самых крупных массово производимых чипов на сегодня.

Значительный объём транзисторного бюджета, очевидно, пойдёт не на собственной сетевую часть, а на Arm-ядра и различные ускорители. Анонсированные в прошлом году и ставшие доступными сейчас DPU BlueField-2 намного скромнее. Но именно с их помощью NVIDIA готовит экосистему для будущих комплексных решений, где DPU действительно станут «третьим сокетом», как когда-то провозгласил стартап Fubgible, успевший анонсировать до GTC’21 и собственную СХД, и более общее решение для дата-центров. Однако подход двух компаний отличается.

Напомним основные характеристики BlueField-2. Сетевая часть, представленная Mellanox ConnectX-6 Dx, предлагает до двух портов 100 Гбит/с, причём доступны варианты и с Ethernet, и с InfiniBand. Есть отдельные движки для ускорения криптографии, регулярных выражений, (де-)компрессии и т.д. Всё это дополняют 8 ядер Cortex-A78 (до 2,5 ГГц), от 8 до 32 Гбайт DDR4-3200 ECC, собственный PCIe-свитч и возможность подключения M.2/U.2-накопителя. Кроме того, будет вариант BlueField-2X c GPU на борту. Характеристики конкретных адаптеров на базе BlueField-2 отличаются, но, в целом, перед нами полноценный компьютер. А сама NVIDIA называет его DOCA (DataCenter on a Chip Architecture), дата-центром на чипе.

Для работы с ним предлагается обширный набор разработчика DOCA SDK, который включает драйверы, фреймворки, библиотеки, API, службы и собственно среду исполнения. Все вместе они покрывают практически все возможные типовые серверные нагрузки и задачи, а также сервисы, которые с помощью SDK относительно легко перевести в разряд программно определяемых, к чему, собственно говоря, все давно стремятся. NVIDIA обещает, что DOCA станет для DPU тем же, чем стала CUDA для GPU, сохранив совместимость с последующими версиями ПО и «железа».

На базе этого программно-аппаратного стека компания уже сейчас предлагает несколько решений. Первое — платформа NVIDIA AI Enterprise для простого, быстрого и удобного внедрения ИИ-решений. В качестве основы используется VMware vSphere, где развёртываются виртуальные машины и контейнеры, что упрощает работу с инфраструктурой, при этом производительность обещана практически такая же, как и в случае bare-metal.

DPU и в текущем виде поддерживают возможность разгрузки для некоторых задач, но VMware вместе с NVIDIA переносят часть типовых задач гипервизора с CPU непосредственно на DPU. Кроме того, VMware продолжает работу над переносом своих решений с x86-64 на Arm, что вполне укладывается в планы развития Arm-экосистемы со стороны NVIDIA. Одним из направлений является 5G, причём работа ведётся по нескольким направлениям. Во-первых, сама Arm разрабатывает периферийную платформу на базе Ampere Altra, дополненных GPU и DPU.

NVIDIA Aerial A100

NVIDIA Aerial A100

Во-вторых, у NVIDIA конвергентное решение — ускоритель Aerial A100, который объединяет в одной карте собственно A100 и DPU. При этом он может использоваться как для ускорения работы собственно радиочасти, так и для обработки самого трафика и реализации различных пограничных сервисов. Там же, где не требуется высокая плотность (как в базовой станции), NVIDIA предлагает использовать более привычную EGX-платформу с раздельными GPU (от A100 и A40 до A30/A10) и DPU.

Одним из вариантов комплексного применения таких платформ является проект Morpheus. В его рамках предполагается установка DPU в каждый сервер в дата-центре. Мощностей DPU, в частности, вполне хватает для инспекции трафика, что позволяет отслеживать взаимодействие серверов, приложений, ВМ и контейнеров внутри ЦОД, а также, очевидно, применять различные политики в отношении трафика. DPU в данном случае выступают как сенсоры, данных от которых стекаются в EGX, и, вместе с тем локальными шлюзами безопасности.

Ручная настройка политик и отслеживание поведения всего парка ЦОД возможны, но не слишком эффективны. Поэтому NVIDIA предлагает как возможность обучения, так и готовые модели (с дообучением по желанию), которые исполняются на GPU внутри EGX и позволяют быстро выявить аномальное поведение, уведомить о нём и отсечь подозрительные приложения или узлы от остальной сети. В эпоху микросервисов, говорит компания, более чем актуально следить за состоянием инфраструктуры внутри ЦОД, а не только на его границе, как было раньше, когда всё внутри дата-центра по умолчанию считалось доверенной средой.

Кроме того, с помощью DPU и DOCA можно перевести инфраструктуру ЦОД на облачную модель и упростить оркестрацию. Но не только ЦОД — обновлённая суперкомпьютерная платформа DGX SuperPOD for Enterprise теперь тоже обзавелась DPU (с InfiniBand) и ПО Base Command, которые позволяют «нарезать» машину на изолированные инстансы с необходимой конфигурацией, упрощая таким образом совместное использование и мониторинг. А это, в свою очередь, повышает эффективность загрузки суперкомпьютера. Base Command выросла из внутренней системы управления Selene, собственным суперкомпьютером NVIDIA, на котором, например, компания обучает модели.

DPU доступны как отдельные устройства, так и в составе сертифицированных платформ NVIDIA и решений партнёров компании, причём спектр таковых велик. Таким образом компания пытается выстроить комплексный подход, предлагая программно-аппаратные решения вкупе с данными (моделями). Аналогичный по своей сути подход исповедует Intel, а AMD с поглощением Xilinx, надо полагать, тоже будет смотреть в эту сторону. И «угрозу» для них представляют не только GPU, но теперь и DPU. А вот новые CPU у NVIDIA, вероятно, на какое-то время останутся только в составе собственных продуктов, в независимости от того, разрешат ли компании поглотить Arm.

Постоянный URL: http://servernews.ru/1037460
Система Orphus