Материалы по тегу: dpu

16.10.2020 [23:17], Юрий Поздеев

DPU в стиле Intel: сетевые адаптеры с Xeon D, FPGA, HBM и SSD

Мир сетевых карт становится умнее. Это следующий шаг в дезагрегации ресурсов центров обработки данных. Наличие расширенных возможностей сетевых карт позволяет разгрузить центральный процессор, при этом специализированные сетевые адаптеры обеспечивают более совершенные функции и безопасность. В этой новости мы познакомим вас сразу с двумя адаптерами: Silicom SmartNIC N5010 и Inventec SmartNIC C5020X.

Silicom FPGA SmartNIC N5010 предназначена для систем крупных коммуникационных провайдеров. Операторы все чаще стремятся заменить проприетарные форм-факторы от поставщиков телекоммуникационного оборудования на более стандартные варианты. В рамках этого мы видим, что производители ПЛИС не прочи освоить и эту нишу.

В Silicom FPGA SmartNIC N5010 используется Intel Stratix 10 DX с 8 Гбайт памяти HBM. Поскольку пропускная способность памяти становится все большим аспектом производительности системы, HBM будет продолжать распространяться за пределы графических процессоров и FPGA. В SmartNIC и DPU память HBM может использоваться для размещения индексных таблиц поиска и других функций для интенсивных сетевых нагрузок. Помимо HBM SmartNIC N5010 имеет еще 32 Гбайт памяти DDR4 ECC.  SmartNIC N5010 потребляет до 225 Вт, что предполагает несколько вариантов исполнения карты, в том числе и с активным охлаждением.

Самая интересная особенность новой карты — 4 сетевых порта по 100 Гбит/с. На плате SmartNIC N5010 установлены две базовые сетевые карты Intel E810 (Columbiaville). На приведенной схеме можно заметить, что используется интерфейс PCIe Gen4 x16, причем их тут сразу два. Для работы четырех 100GbE-портов уже недостаточно одного интерфейса PCIe 4.0 x16. Второй порт PCIe 4.0 x16 может быть подключен через дополнительный кабель к линиям второго процессора, чтобы избежать межпроцессорного взаимодействия для передачи данных.

Вторая новинка, Inventec FPGA SmartNIC C5020X, совмещает на одной плате процессор Intel Xeon D и FPGA Intel Stratix 10. Этот адаптер предназначен для разгрузки центрального процессора в серверах крупных облачных провайдеров. На плате установлен процессор Intel Xeon D-1612 с 32-Гбайт SSD и 16 Гбайт DDR4, подключение к ПЛИС Intel Stratix 10 DX 1100 осуществляется через PCIe 3.0 x8. Нужно отметить, что FPGA Stratix имеет свои собственные 16 Гбайт памяти DDR4, а также обеспечивает сетевые подключения 25/50 Гбит/с и оснащен интерфейсом PCIe 4.0 x8, через который адаптер подключается к хосту.

У Inventec уже есть решение на базе Arm (Inventec X250), которое использует ПЛИС Arria 10 GX660 вместе с сетевым адаптером Broadcom Stingray BCM8804, которое имеет аналогичный форм-фактор и TPD не более 75 Вт. Однако для некоторых организаций наличие единой x86 платформы, включая SmartNIC, упрощает развертывание, поэтому вариант C5020X для таких компаний более предпочтителен.

Решение получилось очень интересным, однако вряд ли его можно назвать адаптером для массового рынка, как Intel Columbiaville. На примере этого адаптера Intel показала, что может объединить элементы своего портфеля для создания комплексных решений. Inventec FPGA SmartNIC C5020X является хорошей альтернативой предложению на базе Broadcom, что позволит крупным облачным провайдерам диверсифицировать свои платформы.

Несмотря на то, что обе новинки классифицируются как «умные» сетевые адаптеры SmartNIC, вторая, пожалуй, уже ближе к DPU, если сравнивать её с адаптерами NVIDIA DPU, в которых сетевая часть дополнена Arm-процессором и GPU-ускорителем. В данном случае есть и x86-ядра общего назначения, и ускоритель, хотя и на базе ПЛИС. Впрочем, устоявшегося определения DPU и списка критериев соответствия этому классу процессоров пока нет.

Постоянный URL: http://servernews.ru/1023157
05.10.2020 [22:10], Юрий Поздеев

NVIDIA BlueField-2X DPU: «умный» сетевой адаптер с CPU, GPU и RAM

NVIDIA представила два новых решения: BlueField-2X DPU, которое объединякт на одной печатной плате процессорные ядра Arm, графический ускоритель и сетевой адаптер Mellanox, а также BlueField-2 без GPU на борту. Изначально BlueField разрабатывался Mellanox, но последняя стала частью NVIDIA, а разработки перешли по наследству. Так что же интересного и нового в этих двух решениях?

NVIDIA BlueField-2X

NVIDIA BlueField-2X

Начнем с безопасности: архитектура DPU позволяет использовать так называемый Next-Generation Firewall, поддерживает IDS/IPS, микро-сегментацию и защиту от DDOS. И всё это непосредственно в адаптере — ненужный трафик просто не попадает в систему. Естественно, традиционные опции разгрузки и программирования тоже никуда не делись: адаптер обеспечивает скорость передачи данных Ethernet и InfiniBand до 200 Гбит/с, разгружая ядра центрального процессора.

А благодаря NVMe over Fabric (NVMe-oF) Storage Direct, шифрованию, сжатию и дедупликации, NVIDIA BlueField-2 DPU позволяет создать высокопроизводительную сеть хранения данных с низкими задержками. Сегодня же, к слову, компания объявила об открытии раннего доступа разработчикам к GPUDirect Storage.

Для упрощения разработки компания выпустила пакет программного обеспечения (SDK) NVIDIA DOCA, который позволяет разработчикам создавать высокопроизводительные облачные сервисы с использованием DPU и стандартных API, включая Data Plane Development Kit (DPDK) и P4 для сетей и безопасности, а также Storage Perfomance Development Kit (SPDK) для систем хранения.

NVIDIA BlueField-2 основана на ConnectX-6 Dx с программируемыми ядрами Arm (8 ядер Cortex-A72) и двумя ядрами VLIW, дополнительно на плате установлено 8 или 16 Гбайт памяти DDR-4. BlueField-2 может оснащаться двумя портами со скоростями до 100 Гбит/с или одним портом со скоростью до 200 Гбит/с, при этом на карте присутствует выделенный порт 1 Гбит/с для управления. NVIDIA BlueField-2 выпускается в следующих форматах: HHHL, FHHL, OCP 3.0 SFF.

NVIDIA BlueField-2

NVIDIA BlueField-2

NVIDIA BlueField-2X отличается от своего младшего собрата тем, что на плате размещен графический ускоритель на базе Ampere. Это решение предназначено для рабочих нагрузок ИИ, может применяться для вычислений и видеоаналитики на периферии. Столь высокая интеграция делает новинки отличной основой для платформ периферийных вычислений, включая собственную разработку NVIDIA EGX.

По датам выхода пока информация не точная: обе карты планируется выпустить в 2021 году. Однако, этими двумя решениями планы NVIDIA не ограничиваются: объявлены следующие поколения карт BlueField-3 и BlueField-4, которые выйдут до 2023 года. Подобные решения должны существенно изменить подходы к проектированию инфраструктуры центров обработки данных.

Постоянный URL: http://servernews.ru/1022241
05.10.2020 [18:32], Юрий Поздеев

NVIDIA EGX: решение для периферийных вычислений на базе DPU

NVIDIA объявила о выпуске новой ИИ-платформы NVIDIA EGX для периферийных вычислений. Новое решение может применяться в производстве, сельском хозяйстве, логистике, телекоммуникациях и СМИ для быстрого и эффективного развертывания систем ИИ.

Платформа EGX объединяет возможности GPU с архитектурой NVIDIA Ampere и BlueField-2 DPU на одной карте PCIe, что позволяет создать достаточно компактное и производительное решение. DPU BlueField-2 включает в себя ядра Arm, которые можно использовать для ускорения работы с данными GPU и других задач.

Кроме аппаратной новинки, NVIDIA представила обновленный стек программного обеспечения для EGX, доступный на NVIDIA NGC и в отдельном каталоге ПО, где дополнительно предлагаются предварительно настроенные инструменты ИИ для разных отраслевых решений. Данные платформы приложений поддерживаются ведущими поставщиками ПО для ИИ, такими как Deep North, Everseen и Whiteboard Coordinator.

NVIDIA сотрудничает с ведущими производителями ОС и гипервизоров, включая Canonical, Cloudera, Red Hat, SUSE и VMware, чтобы обеспечить поддержку и оптимизацию нового ПО NVIDIA, которое может работать как на «голом железе», так и в виртуальной среде.

NVIDIA делает ставку на развертывание инструментов анализа ИИ на периферии, непосредственно внутри офисов, фабрик, складов, вышек сотовой связи, школ, магазинов и банков. Это должно сделать подобные технологии более доступными для широкого круга потребителей.

Также NVIDIA анонсировала программу раннего доступа NVIDIA Fleet Command, представляющую собой гибридную облачную платформу с возможностью обработки в данных в реальном времени, которая будет предоставляться по схеме «ПО как услуга» (SaaS). Fleet Command позволит упростить управление серверами, расположенными на множестве объектов, снизит нагрузку на ИТ-отделы за счет проактивного мониторинга и удобной системы управления с графической консолью.

Системы NVIDIA EGX доступны от многих сертифицированных производителей серверов: ASUS, Atos, Dell Technologies, Fujitsu, GIGABYTE, H2C, Inspur, Lenovo, Quanta и Supermicro.

Постоянный URL: http://servernews.ru/1022223
29.09.2020 [19:57], Алексей Степин

VMware возложит часть нагрузки vSphere на DPU и SmartNIC

Когда-то архитектура x86 была очень простой, хотя её CISC-основа и была сложнее пути, по которому пошли процессоры RISC. Но за всё время своей эволюции она постоянно усложнялась и на процессоры возлагались всё новые и новые задачи, требующие дополнительных расширений, а то и перекладывались задачи с плеч специализированных чипов. Эта тенденция сохраняется и поныне, однако один из лидеров в мире виртуализации, компания VMware, имеет иное видение.

Сложность приложений и сценариев растёт, x86 может не успевать за возрастающей нагрузкой

Сложность приложений и сценариев растёт, x86 может не успевать за возрастающей нагрузкой

Перекладывание на x86 несвойственных этой архитектуре задач началось с внедрения расширений MMX. Сегодня современные серверные процессоры умеют практически всё и продолжают усложняться — достаточно вспомнить Intel VNNI, подмножество AVX-512, ускоряющее работу с всё более популярными задачами машинного обучения. Однако VMware считает, что x86 не успевает за усложнением программного обеспечения и полагает, что будущее ЦОД лежит в дезагрегации вычислительных ресурсов.

С учётом того, что задачи перед серверами и ЦОД встают всё более и более сложные, неудивительно, что наблюдается расцвет всевозможных ускорителей и сопроцессоров, от умных сетевых адаптеров и уже ставших привычными ГП-ускорителей до относительно экзотических идей, вроде «процессора обработки данных» (DPU). Последнюю концепцию на конференции VMworld 2020 поддержал такой гигант в сфере виртуализации, как VMware.

Но ряд задач можно переложить на плечи ускорителей типа SmartNIC или DPU

Но ряд задач можно переложить на плечи ускорителей типа SmartNIC или DPU

Переработкой своей основной платформы виртуализации vSphere компания занимается уже давно, и в проекте прошлого года под кодовым названием Pacific переработано было многое. В частности, в основу системы управления была окончательно положена контейнерная модель на базе коммерческой системы для Kubernetes под названием Tanzu. Проект этого года, получивший имя Monterey, ознаменовал дальнейшее движение в этом направлении.

Теперь Kubernetes стал не дополнением, пусть и включенным изначально, но единственным движком для управления как виртуальными машинами первого поколения, так и более современными контейнерами. Но из этого следует дальнейшее повышение вычислительной нагрузки на серверы.

Новая версия платформы vSphere проще, но она эффективнее использует имеющиеся вычислительные ресурсы

Новая версия платформы vSphere проще, но она эффективнее использует имеющиеся вычислительные ресурсы

В частности, как отмечает VMware, обработка данных ввода-вывода становится всё сложнее. Как мы уже знаем, это привело к зарождению таких устройств, как «умные сетевые адаптеры» (SmartNIC) и даже специализированных чипов DPU. Как первые, так и вторые, как правило, содержат ядра на базе архитектуры ARM, и именно их-то и предлагает использовать для разгрузки основных процессоров VMware. Информация о том, что компания работает над переносом гипервизора ESXi на архитектуру ARM официально подтвердилась.

Важной частью ESXi, как известно, является виртуализация сетевой части — «коммутаторов» и «микро-файрволлов», и в Project Monterey появилась возможность запускать сетевую часть ESXi полностью на ресурсах DPU или SmartNIC, благо современные ускорители этих классов имеют весьма солидную производительность, а иногда и превосходят в этом плане классические центральные процессоры.

Новое видение кластера по версии VMware: каждый процессор и сопроцессор занят своим делом

Новое видение кластера по версии VMware: каждый процессор и сопроцессор занят своим делом

Сама идея ускорения сетевой части, в частности, задач обеспечения сетевой безопасности в серверах за счёт SmartNIC не нова. Новизна подхода VMware заключается в другом: теперь реализация ESXi-on-ARM позволит не просто снять нагрузку в этих сценариях с плеч основных процессоров, но и представить за счёт виртуализации все сетевые ресурсы безопасно, в виде единого унифицированного пула и вне зависимости от типа процессоров, занятых в этих задачах. Среди уже существующих на рынке устройств, совместимых с новой концепцией VMware числятся, к примеру, и NVIDIA BlueField-2 — «умный сетевой адаптер», разработанный Mellanox — и решения Intel.

Как считает VMware, такой подход кардинально изменит архитектуру и экономику ЦОД нового поколения. На это есть основания, ведь если объединить пару 64-ядерных процессоров AMD EPYC второго поколения с сетевым ускорителем или DPU, работающим под управлением ESXi в составе единой платформы vSphere, то эту систему можно будет с полным правом назвать «ЦОД в коробке». Такое сочетание позволит запускать множество виртуальных машин с достаточным уровнем производительности, ведь основным x86-процессорам не придётся вывозить на себе виртуализацию сети, функционирование файрволлов и задачи класса data storage.

Демонстрация ESXi-on-ARM выглядит скромно, но это только начало

Демонстрация ESXi-on-ARM выглядит скромно, но это только начало

Пока Project Monterey имеет статус «технологического демо», но сама идея дизагрегации серверов, над которой продолжает работу VMware, выглядит логичной и законченной. Каждый процессор будет выполнять ту задачу, к которой он лучше всего приспособлен, но за счёт единой системы виртуализации платформа не будет выглядеть сегментировано, и разработка ПО не усложнится. Кроме того, VMware уже подтвердила возможность запуска на SmartNIC и DPU приложений сторонних разработчиков, так что лёд явно тронулся.

Постоянный URL: http://servernews.ru/1021812
23.09.2020 [20:35], Алексей Степин

Fungible приобрела разработчика ПО для облачных систем Cloudistics

О компании Fungible и её видении будущего систем хранения данных мы рассказывали неоднократно. Этот разработчик решил довести идею ускорения работы с данными до логического завершения, представив отдельный класс процессоров DPU (Data Processing Unit). Но аппаратная часть лишь половина задачи, и для решения второй, программной части, компания приобрела Cloudistics, разработчика ПО для систем хранения данных.

Блок-схема DPU разработки Fungible

Блок-схема DPU разработки Fungible

Специализированный процессор может быть лучше и энергоэффективнее, нежели используемые в СХД процессоры общего назначения; о «начинке» DPU Funglible F1 можно прочесть в посвящённой ему заметке. Компания не без оснований считает, что DPU может стать столь же важной частью любого ЦОД, как CPU и GPU. Также Fungible отмечает, что для достижения этой цели ей потребуется создать комплекс программного обеспечения, способный объединять DPU-серверы в кластеры, каждый из которых будет наилучшим образом выполнять поставленную перед ним задачу.

Cloudistics Ignite включает в себя три типа ресурсов: накопительные, вычислительные и сетевые

Cloudistics Ignite включает в себя три типа ресурсов: накопительные, вычислительные и сетевые

Приобретение Cloudistics выглядит в свете этих намерений логичным шагом. Сумма сделки не оглашается, но в официальном заявлении отмечено, что специалисты Cloudistics обладают достаточным для создания дезагрегированных ЦОД и систем хранения данных опытом. Эта компания сравнительно молода, она была основана в 2013 году, и уже в первом раунде (A-round) финансирования ей удалось получить инвестиции на сумму $15 млн.

Главным продуктом Cloudistics стала специализированная операционная система Cloud Platform OS, позволяющая создавать и компоновать пулы хранения и обработки данных для облачных структур. В эти пулы входят три базовых компонента — блок накопителей, блок вычислений и сетевой блок. Из них по мере надобности можно формировать приватное облако и управлять им, как единым целым.

В 2018 году была представлена система Cloudistics Ignite, полностью законченное решение на основе вышеописанной концепции, позволяющее разворачивать полученную инфраструктуру, как услугу (IaaS). ПО Cloudistics уже использовала в своих платформах Lenovo, но теперь, следует ожидать нового поколения таких платформ уже на базе чипов Fungible. Впрочем, самим DPU ещё предстоит окончательно оформиться в отдельный класс устройств.

Постоянный URL: http://servernews.ru/1021356
19.08.2020 [19:04], Илья Коваль

Третий сокет: Fungible представляет новый класс процессоров — DPU

Идея дезагрегации ресурсов, которые в последнее время становятся всё более разнообразными, далеко не нова. Выделенные аппаратные блоки, которые помогают перемещать данные между ресурсами, тоже в том или ином виде развиваются не первый год. Fungible же решила довести эту концепцию до логического конца, создав DPU (Data Processing Unit).

На конференции HotChips 32 компания рассказала о двух процессорах: Fungible F1 и S1. Первому из них и был посвящён основной доклад. F1 ориентирован на работу с хранилищами и безопасную обработку больших потоков данных, которые требуются современным системам ИИ и аналитики.

При взгляде «свысока» F1 представляет собой чип c двумя основными интерфейсами: 8 каналов 100GbE и 4 контроллера PCIe 3.0/4.0 x16. Тем не менее, это не просто очередная реализация RDMA или, допустим, NVMe-oF. Со стороны сети предполагается организация общей фабрики между всем узлами, которую разработчики называют TruFabric.

В отличие от многих других решений для фабрики здесь используется стандартный и относительно дешёвый Ethernet, а не PCIe, InfiniBand, Fibre Channel или какой-то проприетарный интерконнект. Весь трафик шифруется, а для реализации собственных функций разгрузки предлагается P4-подобный язык программирования.

Со стороны PCIe F1 может «представляться» серверу как ещё один адаптер (с SR-IOV), а может предоставлять и собственный root-комплекс для прямого подключения и абстракции других устройств: CPU, GPU, FPGA, NVMe SSD, HDD и так далее.

Fungible F1 помимо Ethernet и PCIe включает общий контроллер памяти, планировщик, управляющий блок и собственно блоки обработки данных. Все они объединены внутренней сверхбыстрой шиной. Контроллеры памяти обслуживают 8 Гбайт набортной HBM (4 Тбит/с) + внешние модули DDR4-2666 ECC с поддержкой NVDIMM-N, суммарный объём которых может достигать 512 Гбайт.

Блоков обработки данных (Data Cluster) в сумме восемь. Каждый из них имеет 6 ядер MIPS-64 общего назначения c SMT4. Их дополняют отдельные аппаратные акселераторы для поиска, передачи и сжатия объёма передаваемых данных, безопасности и защиты информации, а также для аналитики данных. Все ядра и акселераторы имеют общий кеш и менеджер памяти. Суммарно на чип приходится 48 ядер и 192 потока для обработки данных.

Управляет ими отдельный блок (Control Cluster), включающий 4 ядра MIPS-64 с SMT2, а также модули безопасности: изолированный анклав, генератор случайных чисел, аппаратный акселератор для работы с ключами шифрования. MIPS-ядра также имеют блоки FPU/SIMD и поддержку аппаратной виртуализации.

Программная часть представлена мини-ОС FunOS Nucleus, которая обеспечивает самые базовые функции. В блоках Data Cluster «живёт» FunOS, которая обслуживает пять программных стеков: сеть, хранилище, виртуализация, безопасность и аналитика. В Control Cluster работает сверхтонкий гипервизор FunVisor, поверх которого запущен Linux. Для ОС, гипервизора и ВМ, работающим на хост-процессоре x86 или ARM предлагаются драйверы и агенты.

Предварительные тесты действительно показывают значительное ускорение в некоторых нагрузках, а также достаточно высокий уровень производительности самих DPU и TrueFabric. При этом в отличие от SmartNIC и других подобных решений DPU от Fungible обещают быть намного универсальнее и вместе с тем проще в работе.

Fungible даже считает, что DPU должны стать одним из ключевых компонентов современных серверов в дата-центре, заняв третий по счёту сокет в системе после CPU и GPU. Таким образом, можно будет на лету «собирать» оптимизированные под конкретные задачи конфигурации из разрозненных ресурсов, объединённых DPU-хабами в единую фабрику.

Постоянный URL: http://servernews.ru/1018641
01.08.2020 [23:02], Алексей Степин

DPU, «cопроцессоры для данных», набирают популярность, но пока не являются зрелыми

В новости об анонсе сопроцессора для SSD от Pliops, призванного разгрузить от этих задач CPU, упоминалось, что подобного рода решения разрабатывают и другие. Концепция «сопроцессора для данных» (data processing unit, DPU) уже в достаточной степени оформилась, но единства в архитектурном и программном подходе пока нет. Что может предложить современный рынок DPU?

С обработкой данных на стороне сетевого адаптера — самого периферийного устройства в любой серверной системе, активно экспериментировала ещё Mellanox. Сейчас, будучи частью NVIDIA, она продолжает начатую работу. Главной разработкой NVIDIA/Mellanox в этой сфере можно назвать чип BlueField-2, с одной стороны обеспечивающий функциональность типичного SmartNIC (один порт Ethernet класса 200G или два порта класса 100G), а с другой — поддержку NVMe over Fabrics и разгрузку центральных процессоров во всём, что касается задач ввода-вывода.

Это решение содержит как массив ARM-ядер, так и специализированные ASIC-блоки ускорения различных функций. Дополняется это наличием набортных 16 Гбайт оперативной памяти DDR4. NVIDIA видит DPU, такие, как BlueField-2, частью связки «CPU + GPU + DPU». Благодаря использованию архитектуры ARM такой подход универсален и его разделяют, к примеру, аналитики Wells Fargo.

Архитектура AWS Nitro

Архитектура AWS Nitro

Но на рынке существуют и другие игроки, активно внедряющие идеи, заложенные в концепции DPU. К ним можно отнести одного из крупнейших провайдеров облачных услуг — Amazon Web Services. Она разработала собственный DPU-ускоритель, плату Nitro. В общих чертах это решение похоже на NVIDIA/Mellanox BlueField-2, но ASIC там используется другой, собственной разработки AWS.

Инстансы Elastic Compute Cloud запускаются с использованием таких ускорителей, работающих на шине PCI Express. AWS не ограничивает их единственным предложением, а предоставляет различные оптимизированные под задачи заказчика версии — ориентированные на вычисления, машинное обучение, хранение и обработку данных и другие сценарии. AWS Nitro также содержит реализацию NVMe и NVMe-OF; похоже, это станет общим местом всех DPU.

Архитектура Diamanti

Архитектура Diamanti

Над похожим проектом работает компания Diamanti, разрабатывающая линейку выделенных гиперконвергентных серверов, оптимизированных для запуска контейнеров Kubernetes и выполняющих эту задачу лучше стандартных серверов. В серию входят модели D10, D20 и G20, и в общем виде они мало чем отличаются от обычных машин, но машины Diamanti содержат два уникальных компонента — NVMe-контроллер и 40GbE-контроллер Ethernet с поддержкой Kubernetes CNI и SR-IOV.

Решения Diamanti интересы тем, что используют два раздельных ускорителя вместо одного, и это имеет свои преимущества: скажем, скорости сетевого подключения 40 Гбит/с в ближайшее время может оказаться недостаточно, но для соответствия современным требованиям в сервере Diamanti будет достаточно сменить сетевой ускоритель, не трогая плату NVMe-контроллера, отвечающую за общение с дисковой подсистемой.

Fungible предлагает сделать DPU центром всей системы

Fungible предлагает сделать DPU центром всей системы

Также заслуживает упоминания компания Fungible, о которой мы рассказывали читателям в начале этого года. Именно она одной из первых озвучила термин DPU. На момент первого анонса, в феврале 2020 года готового ускорителя на руках у Fungible ещё не было. Но концепция DPU, пожалуй, проработана у Fungible лучше всего: предполагается, что в таких системах весь трафик, от сетевого и содержимого, пересылаемого из памяти в ЦП, до данных, передаваемых графическому процессору, будет проходить через DPU.

«Процессор обработки данных» в представлении Fungible станет звеном, объединяющем все компоненты вычислительной системы, будь то процессоры, GPU, FPGA-ускорители или массивы флеш-памяти. В качестве системы межсоединений компания планирует использовать шину TrueFabric собственной разработки, отличающуюся низким уровнем задержек. Готовое решение Fungible должна представить уже в этом году.

Архитектура Pensando Capri

Наконец, компания Pensando, в конце 2019 года начавшая сотрудничество с известным производителем СХД NetApp, уже поставляет ускорители Distributed Services Card, DSC-100. Они сочетают в едином чипе и одной плате функции, которые Diamanti решает с помощью двух раздельных карт; как уже было сказано, у такого подхода есть и минусы — заменять ускоритель придётся целиком, даже если «ускорительная» часть ещё способна на многое, а ускорить требуется лишь сетевое подключение.

В основе DSC-100 лежит процессор Capri, с сетевой стороны предоставляющий пару портов 100GbE, имеющих общий буфер пакетов. С этим буфером общается полностью программируемый процессор обработки данных, но имеются в составе чипа и классические ARM-ядра, а также «жесткие» ускорители, например, криптографический. Программируемая, «жёсткая» и ARM-части общаются посредством когерентной системы межсоединений, которая подключена к контроллеру PCIe и массиву оперативной памяти. В целом решение напоминает NVIDIA/Mellanox BlueField-2.

К сожалению, ни одно из описанных решений пока не успело стать стандартным для индустрии. Каждое из них имеет свои достоинства и недостатки, а главное — несовместимую между собой программную часть. Это делает внедрение DPU в имеющиеся структуры достаточно сложным процессом: надо не ошибиться в выборе поставщика и разработчика, а кроме того, требуется отдельная покупка, инсталляция и затраты на обслуживание и поддержку.

Лишь такие гиганты, как AWS, могут полностью обеспечить себя идеальным для своих задач DPU. Иными словами, «сопроцессоры данных» пока представляют собой нишевые устройства. Для того, чтобы они стали по-настоящему популярными, нужен единый унифицированный стандарт архитектуры — такой же, какой обеспечил в своё время универсальность и кросс-совместимость графических процессоров.

Постоянный URL: http://servernews.ru/1017218
12.02.2020 [22:00], Алексей Степин

Fungible обещает представить DPU-процессоры для дезагрегации IT-инфраструктуры

Молодая компания Fungible опубликовала планы по покорению IT-рынка с помощью концепции «процессора для данных» или DPU (data processing unit). Чипы DPU должны избавить традиционные серверные CPU от задач по управлению потоками данных.

Готового продукта на руках у Fungible пока нет, но на сайте компании документация и видео, разъясняющие суть технологии. Ожидается, что первый чип этого типа может появиться в середине или конце этого года.

Компания-разработчик называет DPU «полностью программируемым процессором», который, по её задумке, может выполнять роль звена, соединяющего между собой все компоненты вычислительной системы. При этом DPU не является ПЛИС или привычным центральным процессором. 

Чипы DPU будет иметь стандартные PCIe-интерфейсы для подключения накопителей и других устройств (ускорителей, в первую очередь), а общаться друг с другом DPU будет посредством Ethernet-фабрики. На плечи чипа лягут задачи по обработке, компрессии и шифрованию трафика. 

Использование DPU для дезагрегации IT-инфраструктуры позволит на лету компоновать вычислительные системы словно из кубиков, «набирая» ресурсы — CPU, GPU, FPGA, накопители, память — из пулов в соответствии с задачей, которую требуется решить. 

Получится ли у Fungible реализовать своё видение, пока неясно, несмотря на достаточно солидное финансирование — в частности, полученные от фонда SoftBank Vision $200 миллионов. Конкурировать новичку на рынке составных систем придётся практически со всеми крупными игроками и другими стартапами. Например, Liquid уже предлагает PCIe-фабрику Grid для объединения пулов различных ресурсов. 

Постоянный URL: http://servernews.ru/1003560
25.01.2020 [14:48], Геннадий Детинич

Серверная память UPMEM показывает 10-кратное преимущество над DDR4 в ряде задач

Опытная партия памяти UPMEM была представлена летом прошлого года. Разработчик выпустил 8-Гбайт модули DDR4-2400 RDIMM (ECC), каждый из которых опирался на 4-Гбит микросхемы DRAM с 8 встроенными процессорами DPU (data processing unit). То есть каждый модуль такой памяти был вооружён 128 процессорами для первичной обработки данных прямо на кристаллах памяти.

Важно отметить, что память UPMEM полностью совместима с имеющимся оборудованием. Модификации требуют только некоторые программные библиотеки, но они не очень большие, всего несколько сотен строк кода. Зато потом штатные платформы на процессорах Intel Xeon могут получить многократный рост производительности и снижение итогового энергопотребления без увеличения объёма памяти.

Свежим пресс-релизом разработчик поделился бенчмарками работы системы с процессорами Intel Xeon на памяти UPMEM в приложении для анализа генома человека и при индексном поиске. Работа инструмента GATK (Genome Analysis Toolkit) для составления генетической карты и анализа отклонений на массиве памяти UPMEM прошла в 10 раз быстрее, чем на аналогичном по объёму массиве обычной памяти DDR4.

Поскольку фрагменты генома обрабатывались прямо в памяти, это привело к росту пропускной способности в 11 раз. Всё вместе сопровождалось снижением потребления в 6 раз в пересчёте на пропускную способность. При этом надо отметить, что модуль UPMEM потребляет в два раза больше энергии, чем обычный модуль памяти без встроенных процессоров.

Запуск индексного поиска также  показал преимущество встроенной в память первичной обработки данных. На массиве памяти UPMEM запрос распараллеливался по всем чипам и там обрабатывался встроенными процессорами вместо того, чтобы загружать данные в центральный процессор и только там их обрабатывать. Как результат, задержки в обработке снизились в 35 раз, а пропускная способность выросла в 11 раз. Потребление при выполнении этой задачи оказалось также в 6 раз меньше, чем с использованием обычной памяти.

Результаты реальных тестов памяти UPMEM оказались несколько меньше теоретически обоснованных. Ранее разработчик заявлял о 10-кратном снижении потребления, тогда как на деле потребление снизилось в 6 раз. Но даже это выглядит превосходным результатом. При этом скорость работы приложений выросла на порядок, что окажет услугу учёным и человечеству при расшифровке генома и ускорит поиск информации удалёнными клиентами.

Постоянный URL: http://servernews.ru/1002241
Система Orphus