Материалы по тегу: дезагрегация

25.01.2023 [18:30], Алексей Степин

GigaIO FabreX обещает удвоить эффективность использования ресурсов ускорителей для платформ на базе Sapphire Rapids

Компания GigaIO, разработчик компонуемой платформы FabreX также поддержала выпуск новых процессоров Intel Xeon. Сертифицированная платформа GigaIO GigaPod на базе Sapphire Rapids показала возросший на 106 % уровень утилизации ускорителей в сравнении с платформой NVIDIA DGX, использующей InfiniBand.

 Коммутатор FabreX. Источник здесь и далее: GigaIO

Коммутатор FabreX. Источник здесь и далее: GigaIO

Конфигурация тестовой системы включала в себя сервер на базе Sapphire Rapids, к которому с помощью FarbeX были подключены 16 ускорителей NVIDIA A100. Как показало тестирование, такая конфигурация куда эффективнее использует ресурсы, нежели в случае традиционного подхода, когда ускорители «раскиданы» по нескольким серверам и коммуникация между ними осуществляется посредством высокоуровневой сети вроде InfiniBand.

 Интерконнект GigaIO FabreX универсален и поддерживает подключение любых типов устройств

Интерконнект GigaIO FabreX универсален и поддерживает подключение любых типов устройств в рамках платформы GigaPod

Глава GigaIO отметил, что в классическом варианте уровень загрузки ускорителей может опускаться до 15 %, и это при том, что стоимость мощных ускорителей иногда составляет до 80 % стоимости всей системы. Финальный выигрыш в стоимости GigaPod в версии с процессорами Sapphire Rapids может достигать 30 % в пользу решения GigaIO.

Компонуемая архитектура, продвигаемая GigaIO, существенно эффективнее традиционных: в её основе лежит PCI Express, что гарантирует задержку на уровне менее 1 мкс. По этому показателю FabreX превосходит и InfiniBand, и NVIDIA NVLink. При этом полностью поддерживается DMA.

 Программная архитектура FabreX

Программная архитектура FabreX

Платформа FabreX универсальна, она позволяет подключать к системе практически любые компоненты, от GPU до пулов памяти и FPGA, в том числе с CXL. Ещё на SC20 компания продемонстрировала 5U-шасси, вмещающие до 10 ускорителей с интерфейсом PCIe 4.0. Архитектура GigaIO является программно-определяемой и совместима с большей частью современного ПО для управления и распределения нагрузки, в ней реализован набор открытых API Redfish.

Постоянный URL: http://servernews.ru/1080857
02.08.2022 [16:00], Алексей Степин

Опубликованы спецификации Compute Express Link 3.0

Мало-помалу стандарт Compute Express Link пробивает себе путь на рынок: хотя процессоров с поддержкой ещё нет, многие из элементов инфраструктуры для нового интерконнекта и базирующихся на нём концепций уже готово — в частности, регулярно демонстрируются новые контроллеры и модули памяти. Но развивается и сам стандарт. В версии 1.1, спецификации на которую были опубликованы ещё в 2019 году, были только заложены основы.

Но уже в версии 2.0 CXL получил массу нововведений, позволяющих говорить не просто о новой шине, но о целой концепции и смене подхода к архитектуре серверов. А сейчас консорциум, ответственный за разработку стандарта, опубликовал свежие спецификации версии 3.0, ещё более расширяющие возможности CXL.

 Источник: CXL Consortium

Источник: CXL Consortium

И не только расширяющие: в версии 3.0 новый стандарт получил поддержку скорости 64 ГТ/с, при этом без повышения задержки. Что неудивительно, поскольку в основе лежит стандарт PCIe 6.0. Но основные усилия разработчиков были сконцентрированы на дальнейшем развитии идей дезагрегации ресурсов и создания компонуемой инфраструктуры.

Сама фабрика CXL 3.0 теперь допускает создание и подключение «многоголовых» (multi-headed) устройств, расширены возможности по управлению фабрикой, улучшена поддержка пулов памяти, введены продвинутые режимы когерентности, а также появилась поддержка многоуровневой коммутации. При этом CXL 3.0 сохранил обратную совместимость со всеми предыдущими версиями — 2.0, 1.1 и даже 1.0. В этом случае часть имеющихся функций попросту не будет активирована.

Одно из ключевых новшеств — многоуровневая коммутация. Теперь топология фабрики CXL 3.0 может быть практически любой, от линейной до каскадной с группами коммутаторов, подключенных к коммутаторам более высокого уровня. При этом каждый корневой порт процессора поддерживает одновременное подключение через коммутатор устройств различных типов в любой комбинации.

Ещё одним интересным нововведением стала поддержка прямого доступа к памяти типа peer-to-peer (P2P). Проще говоря, несколько ускорителей, расположенных, к примеру, в соседних стойках, смогут напрямую общаться друг с другом, не затрагивая хост-процессоры. Во всех случаях обеспечивается защита доступа и безопасность коммуникаций. Кроме того, есть возможность разделить память каждого устройства на 16 независимых сегментов.

При этом поддерживается иерархическая организация групп, внутри которых обеспечивается когерентность содержимого памяти и кешей (предусмотрена инвалидация). Теперь помимо эксклюзивного доступа к памяти из пула доступен и общий доступ сразу нескольких хостов к одному блоку памяти, причём с аппаратной поддержкой когерентности. Организация пулов теперь не отдаётся на откуп стороннему ПО, а осуществляется посредством стандартизированного менеджера фабрики.

Сочетание новых возможностей выводит идею разделения памяти и вычислительных ресурсов на новый уровень: теперь возможно построение систем, где единый пул подключенной к фабрике CXL 3.0 памяти (Global Fabric Attached Memory, GFAM) действительно существует отдельно от вычислительных модулей. При этом возможность адресовать до 4096 точек подключения скорее упрётся в физические лимиты фабрики.

Пул может содержать разные типы памяти — DRAM, NAND, SCM — и подключаться к вычислительным мощностями как напрямую, так и через коммутаторы CXL. Предусмотрен механизм сообщения самими устройствами об их типе, возможностях и прочих характеристиках. Подобная архитектура обещает стать востребованной в мире машинного обучения, в котором наборы данных для нейросетей нового поколения достигают уже поистине гигантских размеров.

В настоящее время группа CXL уже включает 206 участников, в число которых входят компании Intel, Arm, AMD, IBM, NVIDIA, Huawei, крупные облачные провайдеры, включая Microsoft, Alibaba Group, Google и Meta*, а также ряд крупных производителей серверного оборудования, в том числе, HPE и Dell EMC.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Постоянный URL: http://servernews.ru/1071323
20.07.2022 [14:23], Алексей Степин

Корейский институт передовых технологий показал прототип пула памяти DirectCXL

Идея дезагрегации памяти интересует не только владельцев крупных облачных ЦОД, но и специалистов по суперкомпьютерным системам, которые также способны много выиграть от использования подобных технологий. В числе прочих, активно ведёт работы в данном направлении Корейский институт передовых технологий (KAIST), продемонстрировавший недавно работоспособный прототип технологии под названием DirectCXL, передаёт The Next Platform.

 Источник: KAIST/CAMELab

Источник: KAIST/CAMELab

Нетрудно понять из названия, что основой является протокол CXL. Основные принципы, заложенные в DirectCXL лаборатория KAIST CAMELab раскрыла ещё на мероприятии USENIX Annual Technical Conference, они изложены в брошюре, доступной для скачивания с сайта лаборатории.

 Источник: KAIST/CAMELab

Источник: KAIST/CAMELab

Исследователи также провели сравнительное тестирование технологий CXL и RDMA, для чего была использована не самая новая версия InfiniBand FDR (56 Гбит/с) на базе Mellanox ConnectX-3. Как выяснилось, RDMA всё ещё обеспечивает более низкие задержки, однако прогресс в этой области остановился, тогда как у CXL имеется потенциал.

 сточник: KAIST/CAMELab

Источник: KAIST/CAMELab

Избавление от «лишних» протоколов в цепочке между вычислительными узлами и узлами памяти позволило превзойти показатели RDMA over Fabrics. Прототип CXL-пула CAMELab состоял из четырёх плат с разъёмами DIMM и контроллерами на базе FPGA, отвечающими за создание линков PCIe и реализацию протокола CXL 2.0, четырёх хост-систем и коммутатора PCI Express. Для сравнения RDMA с CXL была применена система Facebook* DLRM.

Как показали тесты, CXL-система CAMELab тратит на инициализацию существенно меньше тактов, нежели RDMA, и в некоторых случаях выигрыш составляет свыше восьми раз, но в среднем равен 2–3,7x, в зависимости от сценария. Некоторое отставание от классической локальной DRAM есть, но оно не так значительно и им в данном случае можно пренебречь, особенно с учётом всех преимуществ, обеспечиваемых CXL 2.0.

 CXL тратит на пересылку пакета данных чуть более 300 циклов, RDMA — более 2700. Источник: KAIST/CAMELab

CXL тратит на пересылку пакета данных чуть более 300 циклов, RDMA — более 2700. Источник: KAIST/CAMELab

Стоит учитывать, что поддержки адресации CXL-памяти нет пока ни в одной доступной системе, и здесь CAMELab проделали серьезную работу, создав стек DirectCXL, работающий, судя по всему, непосредственно на FPGA: как и в NUMA-системах, при адресации в режиме load/store первичная обработка данных происходит «на месте», сами данные лишний раз никуда не пересылаются. Также стоит отметить, что драйвер DirectCXL существенно проще созданного Intel для пулов Optane Pmem.

 Источник: KAIST/CAMELabs

Источник: KAIST/CAMELabs

Над аналогичными проектами работают также Microsoft с технологией zNUMA и Meta* Platforms, разрабатывающая протокол Transparent Page Placement и технологию Chameleon. А Samsung, которая первой представила CXL-модули DDR5, объединилась с Liqid и Tanzanite для развития аппаратных CXL-платформ. Ожидается, что в ближайшее время мы увдим множество разработок на тему использования технологий дезагрегации и создания унифицированных пулов памяти, подключаемых к хост-системам посредством интерконнекта CXL.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Постоянный URL: http://servernews.ru/1070460
11.05.2022 [21:56], Владимир Мироненко

Marvell купила разработчика CXL-решений Tanzanite для ускорения работы над компонуемой инфраструктурой

На прошлой неделе Tanzanite Silicon Solutions, Inc. совместно с Liqid и Samsung продемонстрировала первую платформу для создания CXL-пулов памяти, а уже на днях компания Marvell Technology объявила о приобретении этого разработчика. Данная сделка позволит Marvell ускорить разработку решений для компонуемой инфраструктуры. Как ожидается, сделка будет закрыта во II финансовом квартале 2022 года.

Основанная в 2020 году компания Tanzanite была одной из первых на развивающемся рынке CXL-решений, в первую очередь для работы с памятью. Компания создала чип Tanzanite Smart Logic Interface Connector (SLICTZ), который позволяет создать CXL-фабрику для работы с многоуровневыми пулами памяти, причём с минимальной задержкой.. С момента своего появления технология получила поддержку более 190 поставщиков, включая Intel, AMD, IBM и NVIDIA.

 Источник изображения: Marvell Technology

Источник изображения: Marvell Technology

Marvell прогнозирует, что в будущем вычислительные ресурсы, память и хранилища будут дезагрегированы в отдельные блоки, с возможностью компоновки по запросу. Компания считает, что CXL-решения Tanzanite будут играть ключевую роль в достижении этой цели. Интерес Marvell к Tanzanite в первую очередь связан с возможностью формирования более гибкой архитектуры памяти, поскольку требования к её объёму и скорости постоянно растут, а «привязка» DRAM-контроллеров к CPU/GPU не позволяет достичь нужной плотности размещения данных.

Tanzanite же уже сейчас позволяет формировать пулы объёмом до 80 Тбайт с задержкой доступа ниже, чем у типичного двухсокетного сервера. При этом каждый хост может получить пропускную способность, эквивалентную 32 каналам DDR4 или 16 каналам DDR5. Впрочем, для Marvell применение данной технологии не ограничивается только памятью — ускорители CXL будут интегрированы в широкий спектр продуктов, включая блоки обработки данных и системы хранения.

Одной из самых больших проблем, стоящих перед CXL, является расширение её использования за пределы серверного шасси, что необходимо для формирования полноценной компонуемой инфраструктуры. Применение Ethernet в качестве интерконнекта является нецелесообразным из-за больших задержек. А вот CXL-фабрики для этой задачи подходят идеально. Однако Marvell всё равно придётся решать задачи масштабирования таких фабрик за пределы стойки.

Постоянный URL: http://servernews.ru/1065725
05.05.2022 [02:15], Алексей Степин

Liqid, Samsung и Tanzanite объединились для работы над пулами CXL-памяти

За развитием CXL мы следим давно, поскольку эта технология служит фундаментом для компонуемой инфраструктуры, где все ресурсы физически разнесены и могут быть объединены в нужную конфигурацию по запросу. Внедрение CXL 2.0 позволит организовывать и отдельные пулы DRAM или быстрой энергонезависимой памяти вроде Optane.

 Демонстрационная платформа Tanzanite (Изображения: Business Wire)

Демонстрационная платформа Tanzanite (Изображения: Business Wire)

Первый вариант пулов памяти CXL совместно представили Liqid, Samsung и Tanzanite. У Liqid есть PCIe-платформа и ПО для управления дезагрегированными ресурсами, Samsung уже представила первую CXL-память DDR5, а Tanzanite занята разработкой CXL-фабрики на базе чипсета собственной разработки SLICTZ. Liquid недавно получила новые инвестиции от DigitalBridge Ventures и Blackwells Capital, что говорит о заинтересованности крупных инвесторов в развитии идей дезагрегации и композитных вычислительных сред.

Но самое интересное в совместном решении компаний — чип SLICTZ. Он может работать в качестве коммутатора CXL и предоставляет все нужные для организации выделенных пулов CXL-памяти технологии, включая поддержку энергонезависимых модулей и разбиение пула на уровни (tiering). Текущая реализация SLICTZ базируется на флагманских ПЛИС Intel Agilex, но это всего лишь прототип, так что компания со временем наверняка выпустит и ASIC.

 Пул композитной памяти Tanzanite

Пул композитной памяти Tanzanite

Тем не менее, даже первое поколение SLICTZ способно управлять пулом памяти объёмом 80 Тбайт, предоставляя каждому подключённому хосту пропускную спосоность, эквивалентную 32 каналам DDR4 или 16 каналам DDR5. Более того, по словам создателей, задержка доступа будет даже меньше, чем у типичного двухсокетного сервера.

Сама Tanzanite планирует наделить SLITZ достаточно высокой производительностью для поддержки концепции «вычисления рядом с памятью» (Near Memory Compute), что позволит организовать первичную обработку данных и разгрузить, тем самым, хост-процессоры. Не является ли это отходом от базовых принципов дезагрегации, покажет время.

Постоянный URL: http://servernews.ru/1065289
07.04.2022 [22:54], Алексей Степин

Fungible анонсировала платформу FGC, объединяющую DPU и GPU

DPU Fungible уже успели отметиться рекордами в области СХД — система смогла «выжать» 10 млн IOPS с использованием NVMe/TCP. Но сопроцессоры Fungible универсальны и, как считают разработчики, их сфера применения не должна ограничиваться системами хранения данных (СХД), так что на днях компания анонсировала новое решение под названием Fungible GPU-Connect (FGC).

GPU-Connect объединяет DPU и пул графических или вычислительных ускорителей, ресурсы которого можно гибко конфигурировать и предоставлять для использования удалёнными пользователями. Физически Fungible GPU-Connect представляет собой 4U-шасси FX-108, в котором есть одного до четырёх DPU Fungible FC200 (это старшая модель) и до восьми ускорителей.

 Изображение: StorageReview

Изображение: StorageReview

Формально ограничений на тип ускорителей нет, но на данный момент Fungible сертифицировала только решения NVIDIA: A2, A10, A16, A30, A40, A100 (40 и 80 Гбайт). Для плат с разъёмом NVLink поддерживается установка соответствующих мостиков. Такой сервер позволяет вывести дезагрегацию на новый уровень, сгруппировав все мощные ускорители в одной стойке и предоставляя их по необходимости пользователям.

 Изображение: Fungible

Изображение: Fungible

Между конечными хостами (тоже с FC200) и FGC формируются виртуальные PCIe-каналы, которые фактически 100GbE-фабрики. С точки зрения пользователей, такое подключение ничем не отличается от локально установленного в систему GPU-ускорителя. Шасси FGC также имеет 24 корзины для накопителей. Вся система функционирует под управлением фирменного ПО Fungible Composer.

 Изображение: ServeTheHome

Изображение: ServeTheHome

Новая система Fungible GPU-Connect нацелена, в первую очередь, на рынок машинного обучения, но с учётом тенденций к дезагрегации аппаратных ресурсов и размещению их в компактных пулах, её можно считать универсальной. Любопытно, что Fungible решила сертифицировать свои решения с NVIDIA, у которой уже есть собственные DPU. Два других стартапа, занимающихся дезагрегацией ресурсов — Liqid и GigaIO — используют для связи физические подключения PCIe.

Постоянный URL: http://servernews.ru/1063578
18.11.2021 [23:45], Алексей Степин

GigaIO FabreX с CXL позволит вынести пулы оперативной памяти за пределы серверов

Компания GigaIO, один из пионеров в области разработки современных компонуемых сред для ЦОД, кластеров и облачных систем, показала на конференции SC21 свои последние разработки и решения. Компания намерена всего через два года создать универсальную компонуемую платформу, которая позволит на лету собирать сервер любой конфигурации из удалённых SSD, GPU, DPU, FPGA и даже DRAM.

 Коммутатор GigaIO FabreX

Коммутатор GigaIO FabreX

Использовать в качестве основы такой платформы PCIe-фабрику — идея заманчивая, поскольку эта универсальная, стандартная и используемая сегодня в любых ИТ-системах шина обеспечивает высокую производительность при минимальном уровне задержек. У GigaIO уже есть коммутаторы FabreX с поддержкой PCIe 4.0. А CXL позволит добиться практически идеальной дезагрегации ресурсов. Отдельные стойки будут содержать различные массивы DRAM и SCM, флеш-массивы, ускорители самых разных типов и т.д.

Такие стойки-массивы войдут в общую фабрику FabreX, а уже из неё нужные ресурсы смогут получать как традиционные серверы, так и целые кластеры — технологии GigaIO позволяют крайне гибко разграничивать ресурсы, черпаемые из единого пула и раздавать их разным клиентам в нужных пропорциях. Такой подход напоминает современные облачные системы, к которым может подключиться кто угодно и использовать столько ресурсов нужного типа, сколько надо для данной задачи.

Всё управление траифком берёт на себя FabreX, а в клиентские системы остаётся только установить соответствующие HBA-адаптеры, также разработанные GigaIO. Модули Hydra, показанные компанией в конце 2020 года, обеспечивает пропускную способность до 32 Гбайт/с на слот PCIe 4.0 x16. Для кабельной инфраструктуры FabreX использует стандартные кабели с коннекторами SFF-8644 (возможны как чисто медные варианты, так и активные, с оптическими трансиверами).

К тому же FabreX обеспечивает беспроблемную переброску практически любых протоколов и приложений между любыми узлами, включёнными в сеть — будь то TCP/IP, MPI, NVMe-oF и другие виды трафика. Последним барьером, мешающим достигнуть полной дезагрегации ресурсов GigaIO справедливо считает оперативную память, которая в большинстве систем пока ещё находится на стороне процессоров общего назначения в клиентских серверах. Но в партнёрстве с AMD компания уже работает над этой проблемой.

Попытки вынести оперативную память за пределы серверов снижают производительность даже при использовании RDMA. Однако последние разработки GigaIO для FabreX и интеграция в эту систему стандарта CXL должны позволить использовать истинный прямой NUMA-доступ к памяти, даже если она вынесена за пределы клиентской системы и находится в общем пуле-массиве. Последний барьер к полной дезагрезации ресурсов практически пал.

Таким образом, любой сервер в сети FabreX сможет получить полноценный доступ к любой памяти — соседнего сервера или стойки пула, с минимальным ростом латентности и максимально возможной в рамках PCIe пропускной способностью. Пулинг оперативной памяти с сохранением когерентности кешей, по словам GigaIO, будет реализован в 3 квартале следующего года на базе CXL 1.0. В четвёртом квартале должна появиться поддержка CXL 2.0 с возможностью систем делиться ресурсами памяти между собой, а в начале 2023 года компания планирует внедрить весь спектр возможностей CXL 2.0.

В числе преимуществ FabreX GigaIO также называет использование открытых стандартов, даже собственное ПО GigaIO будет находиться в открытом доступе. Клиенты, уже использующие FabreX, без проблем перейдут на новую версию с CXL, поскольку этот стандарт базируется на PCIe 5.0. Им не потребуется вносить изменения в уже работающие контейнеры, ВМ и прочее ПО, зато они смогут использовать все преимущества FabreX в области дезагрегации ресурсам, включая удалённые пулы DRAM.

Постоянный URL: http://servernews.ru/1054061
18.11.2021 [18:40], Алексей Степин

LIQID представила шасси EX-4400: 10 × PCIe 4.0 x16 или 20 × PCIe 4.0 x8

Компания LIQID, известная как поставщик сверхбыстрых серверных SSD и решений для композитной инфраструктуры, представила новые 4U-шасси серии EX-4400 с поддержкой PCI Express 4.0 — модель EX-4410, рассчитанную на установку 10 полноразмерных двухслотовых x16-плат, и EX-4420, в которой можно разместить 20 однослотовых x8-плат, но в форм-факторе.

Идея, как и прежде, заключается в том, что в шасси можно установить практически любые PCIe-устройства (SSD, GPU, FPGA, DPU и т.д.), сформировав таким образом пул различных ресурсов. Вся коммутация PCIe осуществляется непосредственно в самом шасси, которое содержит три свитча Broadcom Atlas — задержка PCIe-фабрики составляет 105 нс. Серверы же имеют прямое PCIe-подключение к шасси, а доступом к ресурсам управляет фирменное ПО. Компания называет эту концепцию CDI Simplified.

Для подключения клиентов есть 16 портов (используются кабели Mini-SAS), каждый из которых может обеспечить передачу данных на скорости до 16 Гбайт/с в дуплексе. Поддерживается агрегация портов, так что требовательный сервер может задействовать сразу четыре порта (до 64 ГБайт/с). Однако суммарная пропускная способность на всех портах одновременно составлят 256 ГБайт/с (тоже в дуплексе).

Конфигурация подключаемых ресурсов управляется программно, поэтому добавить в систему ещё один ускоритель или NVMe-накопитель можно на лету и без прерывания рабочей нагрузки, запущенной на клиентском сервере. Все PCIe-слоты в EX-4400 реализованы с полноценным независимым управлением по питанию, за которое отвечают четыре (2+2) БП мощностью 2,4 кВт и с поддержкой горячей замены.

По словам создателей, это первое в индустрии PCIe-шасси, в которое платы можно устанавливать без отключения самого шасси. Сам процесс установки или изъятия плат предельно упрощён — достаточно выдвинуть шасси из стойки и вытащить, либо добавить нужные клиенту устройства.

Постоянный URL: http://servernews.ru/1054040
30.03.2021 [20:23], Владимир Мироненко

Fungible представила решение Fungible Data Center на базе DPU

Fungible представила Fungible Data Center — новое решение, которое, по словам компании, превращает дата-центры из негибких, сложных и дорогостоящих инфраструктур в простые, высокоэффективные и работающие по требованию вычислительные сервисы.

С помощью Fungible Data Center компания реализует разрабатываемую на протяжении многих лет концепцию гипер-дезагрегированной, компонуемой инфраструктуры, которая обеспечивает производительность уровня bare-metal при экономичности и простоте ЦОД уровня гиперскейлеров. Разработку ПО Fungible Data Center Composer компании удалось ускорить благодаря недавнему приобретению Cloudistics.

«Используя выделенный сопроцессор (Data Processing Unit, DPU), мы создали гипер-дезагрегированные вычислительные ресурсы и ресурсы хранения, обеспечивающие производительность, масштабируемость и экономическую эффективность, недостижимые даже для гиперскейлеров. Сегодня мы предлагаем базовый элемент с первым воплощением Fungible Data Center, полностью управляемым инновационным программным обеспечением Fungible Data Center Composer», — отметил Прадип Синдху (Pradeep Sindhu), генеральный директор и соучредитель Fungible.

Fungible Data Center, представляющее собой комплексное решение «под ключ», включает:

  • Стандартные вычислительные серверы и серверы с графическим процессором, оснащенные платформой Fungible Data Services Platform — FHHL-картой с Fungible S1 DPU. Платформа Fungible Data Services Platform имеет три уровня производительности: 200 Гбит/с, 100 Гбит/с и 50 Гбит/с.
  • Fungible Storage Cluster, состоящий из кластера горизонтально масштабируемых дезагрегированных узлов хранения Fungible FS1600, каждый из которых использует два Fungible F1 DPU.
  • Стандартные ToR-коммутаторы и маршрутизаторы для обмена данными и управления.
  • Fungible Data Center Composer — централизованный программный пакет, который обеспечивает компоновку, выделение ресурсов, управление и оркестрацию инфраструктуры на всех уровнях.

Ориентируясь на провайдеров сервисов новой волны, предприятия, исследовательские лаборатории и университеты, Fungible Data Center стремится предоставить инновационным компаниям следующие преимущества:

  • Простота — управление мультитенантными и безопасными центрами обработки данных через единую панель.
  • Agile IT — лёгкое развёртывание и повторное развертывание для обработки изменений рабочих нагрузок и критических участков за считаные минуты.
  • Производительность уровня bare metal — высокая скорость работы чувствительных к производительности приложений благодаря переносу обработки ввода-вывода на Fungible DPU.
  • Высокая масштабируемость — от половины стойки до сотен стоек для обработки самых сложных сценариев развертывания ЦОД.
  • Непревзойдённая экономичность. Объединение независимых вычислительных ресурсов, хранилищ, сетей и GPU позволяет оптимизовать потребление ресурсов, а унификация узлов сокращает количество SKU до минимального набора, обеспечивая экономию на масштабе и простоту управления.
  • Высочайшая безопасность — независимые домены безопасности с аппаратным ускорением, одноуровневой сегментацией, надёжным QoS и линейным шифрованием.

Решение Fungible Data Center уже доступно для клиентов. Компания также сообщает, что заключила соглашения о стратегическом партнёрстве с ключевыми OEM-производителями, чтобы обеспечить полноценное развёртывание своих решений, поддержку и обучение навыкам работы с ними по всему миру.

Постоянный URL: http://servernews.ru/1036136
20.11.2020 [18:05], Алексей Степин

SC20: GigaIO Hydra — 5U-шасси для 10 ускорителей с PCIe 4.0

Сама идея дезагрегации вычислительных ресурсов не нова, как не нова и идея объединения таких ресурсов в физически разграниченные пулы. Исторически сложившиеся форматы серверного оборудования для таких целей подходят не лучшим образом, но есть способы решения данной проблемы.

Одним из игроков на рынке систем расширения PCI Express и прочих высокоскоростных шин является компания GigaIO и на конференции SC20 она продемонстрировала свою новинку: систему пулинга ускорителей Hydra, полностью поддерживающую стандарт PCI Express 4.0.

Эта компания давно занимается разработкой и созданием систем расширения PCI Express, которые позволяют обойти ограничения на количество слотов и устройств, накладываемые самими физическими параметрами современных серверов. На её счету имеется даже уникальная сетевая технология FabreX, полностью выстроенная на основе PCI Express 4.0. А на конференции SC20 компания представила и первую систему расширения для модульных инфраструктур класса DCI (Disaggregated Composable Infrastructure), способную работать на скоростях, предусмотренных в четвёртой версии стандарта PCIe.

С точки зрения организации сложных вычислительных комплексов DCI удобнее классического подхода, поскольку позволяет не разбрасывать ресурсы плат-ускорителей по отдельным серверам, а сосредоточить их в отдельных физических пулах, соединённых с остальными элементами инфраструктуры посредством стандартной шины PCI Express. В рамках DCI архитектура кластера становится более логичной и простой, что, в том числе, позволяет снизить затраты на его постройку и содержание.

 Решения GigaIO используют стандартные кабели и разъёмы SFF-8644

Решения GigaIO используют стандартные кабели и разъёмы SFF-8644

PCI Express не сразу утвердилась в качестве основной системной шины, но сейчас она доминирует практически в любых системах, от x86 до IBM POWER и ARM. Хотя самой массовой версией остаётся PCIe 3.0, все разработки новых устройств закладывают в них поддержку, как минимум, PCIe 4.0, а значит, старые системы DCI уже не способны обеспечить максимальную пропускную способность и могут стать узким местом.

Новая модель GigaIO Hydra, однако, полностью поддерживает спецификации PCI Express 4.0, описывающие передачу данных со скоростью примерно 32 Гбайт/с на слот x16. Физически это модуль в стоечном корпусе высотой 5U, имеющий в своём составе 10 слотов PCIe 4.0, 8 из которых поддерживают установку полноразмерных плат ускорителей. Внешний линк представлен четырьмя разъёмами mini-SAS (SFF-8644), но логически образует два соединения PCIe 4.0 x16. Всё, что требуется от хост-системы — это наличие соответствующего HBA-адаптера.

 Хост-адаптер GigaIO с поддержкой PCI Express 4.0

Хост-адаптер GigaIO с поддержкой PCI Express 4.0

Новинка поддерживает установку любых ускорителей, включая новейшие NVIDIA A100 и AMD Instinct MI100. Все слоты PCIe в системе являются конфигурируемыми и могут работать в режиме peer-to-peer; хост-система может «бронировать» ресурсы ускорителей по мере необходимости. В этом плане Hydra универсальна: заказчик может использовать любое программное обеспечение для создания собственной модульной инфраструктуры. Всё, что делает Hydra, это обеспечивает прозрачное расширение ресурсов PCI Express, теперь уже на новых, более высоких скоростях передачи данных.

В составе нового PCIe-пула GigaIO имеется также система мониторинга и удалённого управления, она работает со стандартным API Redfish. За питание отвечает система из двух БП мощностью 2000 Ватт, опционально поддерживается схема 2+2. Пулы GigaIO Hydra нового поколения будут массово доступны в первом квартале следующего года.

Постоянный URL: http://servernews.ru/1025917
Система Orphus