Материалы по тегу: ускоритель

28.07.2021 [15:27], Алексей Степин

Pliops анонсировала высокопроизводительный DPU XDP Extreme

Концепция сопроцессора данных (DPU) продолжает набирать популярность — анонсы новых решений в этой области следуют один за другим. Компания Pliops, ранее представившая ускоритель для СУБД, представила свой новый продукт — XDP Extreme, который имеет более широкую сферу применения и предназначен для разгрузки процессоров современных систем хранения данных, целиком построенных на энергонезависимой памяти.

Внешне новинка выглядит как обычная плата расширения с разъёмом PCIe x8, в основе лежит мощная ПЛИС производства Xilinx. В будущем компания планирует заменить её на более экономичный ASIC-вариант. У XDP Extreme нет сетевых портов, вместо этого разработчики сконцентрировали свои усилия на ускорении общих для СХД задач и повышении эффективности использования пула флеш-памяти.

XDP использует так называемый KV Storage Engine — движок, работающий с Key-Value данными. За счёт фирменного API обеспечена совместимость со всеми приложениями, которые используют KV-подход. Уровнем ниже всё так же находится NVMe, как протокол, наиболее отвечающий устройствам на базе флеш-памяти. KV Storage Engine берёт на себя всю обработку ключей БД, включая их сортировку, индексацию и сборку мусора, а значит, этим не придётся заниматься центральным процессорам системы. Также ускоритель обеспечивает разгрузку ЦП при сжатии, отвечает за защиту от сбоев SSD и выполняет шифрование томов с использованием AES-256.

Востребованность XDP высока: KV-движки сегодня используются в подавляющем большинстве баз данных, также они применяются в комплексах машинной аналитики на базе Elastic или Hadoop и в распределённых файловых системах. Эффективность XDP Extreme, если верить данным Pliops, внушает уважение: даже на операциях чтения можно добиться двухкратного прироста линейной производительности, а выигрыш при записи может составлять и три-четыре раза. Более того, флеш-массив под управлением XDP оказывается быстрее, нежели классический RAID0. А снижение коэффициента усиления записи (write amplification) позволяет использовать недорогую, но априори менее надёжную память QLC. Впрочем, с Optane новый DPU тоже прекрасно работает.

Фактически, компания говорит о производительности, сопоставимой с решениями на базе DRAM, но с куда более низкой стоимостью владения. Экономия достигается и за счёт более эффективного использования SSD: в частности, при равном уровне надёжности с классическим массивом RAID 10, система на базе Pliops XDP позволяет обойтись меньшим количеством серверов и накопителей, что, естественно, отразится и на стоимости. Поставки новых ускорителей Pliops XDP Extreme уже развёрнуты.

Постоянный URL: http://servernews.ru/1045368
14.07.2021 [23:23], Алексей Степин

NVIDIA поможет академическим и образовательным кругам бесплатным железом и ПО

Современные научные исследования немыслимы без масштабных вычислений и компании-разработчики аппаратного обеспечения это хорошо понимают, финансируя программы, нацеленные на помощь науке и образованию. Об инициативе AMD AEIR мы уже рассказывали в одной из предыдущих заметок, а сейчас в чём-то похожую программу запускает NVIDIA.

Исторически сложилось так, что AMD на рынке GPGPU находится в положении догоняющего — сказывается наследие ещё ATI Technologies. Хотя в последнее время ситуация и исправляется, но ускорители Instinct всё ещё не столь популярны, как продукты NVIDIA. Как уже сообщалось ранее, с целью исправить эту ситуацию «красные» запустили проект AEIR, позволяющий учёным и исследователям получить удалённый доступ к новейшему ПО и аппаратным платформам, равно как и к технической и информационной поддержке.

NVIDIA RTX A6000: архитектура Ampere, под условия Hardware Grant Programme подходит

NVIDIA RTX A6000: архитектура Ampere, под условия Hardware Grant Programme подходит

А буквально на днях «зелёные» объявили о старте проекта Hardware Grant Programme. Эта программа позволит академическим кругам получить доступ к современному «железу» — ускорители RTX для рабочих станций с архитектурой Ampere, комплекты разработчика Jetson и высокопроизводительные сетевые сопроцессоры BlueField — и программному обеспечению, разработанному NVIDIA. Также в рамках Hardware Grant Programme некоторые проекты могут получить доступ к сетевой вычислительной инфраструктуре на базе решений NVIDIA.

Поиграть в свободное от исследований время участникам NVIDIA Hardware Grant Programme не удастся

Поиграть в свободное от исследований время участникам NVIDIA Hardware Grant Programme не удастся

Однако, как отмечает глава новой программы, Ребекка Невин (Rebecca Nevin), в этот список не входят игровые и полупрофессиональные карты серии RTX 3000. Соискатели программы должны представлять известный университет или НИИ и «продемонстрировать понимание того, как технологии NVIDIA могут использоваться для ускорения исследований». Претендовать на бесплатные решения могут и образовательные организации, правда, в обмен на обещание использовать SDK NVIDIA и «предоставлять учащимся возможность отточить свои навыки».

NVIDIA Quadro GV100: «старый, но небесполезный»

NVIDIA Quadro GV100: «старый, но небесполезный»

Отметим, что для ряда научных вычислений, требующих высокой точности, указанные ускорители подходят не лучшим образом, поскольку даже в серии Quadro производительность в режиме FP64 составляет лишь 1/32 от производительности FP32, а далеко не самый новый ускоритель Quadro GV100 на базе архитектуры Volta может предложить учёным около 8 Тфлопс против 1,25 Тфлопс у новейшего RTX A6000.

Подать заявление на участие в NVIDIA Hardware Grant Programme можно до 23 июля, подробности содержатся на веб-странице проекта. Победители будут оглашены 27 августа, раздача следующей партии запланирована на январь следующего года.

Постоянный URL: http://servernews.ru/1044259
14.07.2021 [18:29], Алексей Степин

Ускорители Xilinx Versal обзавелись набортной памятью HBM2e

Адаптивное аппаратное обеспечение сегодня развивается быстрыми темпами, сложность современных ускорителей всё время растёт. Неудивительно, что растут и требования к памяти, сопутствующей FPGA, DPU и сетевым процессорам. Компания Xilix, один из ведущих разработчиков программируемой логики, дополнила свою универсальную адаптивную платформу Versal сверхбыстрой памятью HBM2e.

Сама платформа Versal появилась достаточно давно — в начале 2020 года Xilinx анонсировала уже третье поколение этих чипов. Напомним, к Versal не подходят классические определения FPGA или SoC — чип содержит очень разные по структуре и назначению наборы элементов: ядра общего назначения ARM Cortex-A, ядра реального времени ARM Cortex-R, движки DSP, криптографические движки, массив конфигурируемой логики, а также вспомогательные контроллеры. Разработчики назвали данную серию термином «адаптивная платформа ускорения вычислений» (apatptive compute acceleration platform, ACAP).

Наиболее производительными представителями серии являются Versal Premium, позиционирующиеся компанией как основа высокоскоростных сетевых устройств нового поколения. Но до этого момента даже столь многофункциональные процессоры поддерживали лишь внешнюю память DDR4, а её пропускной способности в некоторых сценариях может уже оказаться недостаточно.

Но сегодня Xilinx исправила свою недоработку, анонсировав новую версию Versal, которая получила поддержку набортной памяти HBM2e. Объём банка HBM2e у новинок составляет 32 Гбайт, а пропускная способность достигает 820 Гбайт/с, что в 8 раз быстрее версий, использующих DDR5. При этом такой чип всё равно на 63% экономичнее варианта с DDR5. Для сравнения, NVIDIA A100 в версии c 80 Гбайт HBM2e развивает более 2 Тбайт/с, но этот более сложный и энергоёмкий чип.

Новый вариант ACAP может обеспечить пропускную способность последовательных интерфейсов на уровне 5,6 Тбит/с (используются трансиверы PAM4 со скоростью 112 Гбит/с), 2,4 Тбит/с производительность подсистемы Ethernet, 1,2 Тбит/с на криптографических задачах. Основным интерфейсом является PCI Express 5.0, причём поддерживаются подмножества CCIX и CXL.

В числе применений для Versal с HBM2e на борту Xilinx называет машинную аналитику, ускорение работы с базами данных (которым особенно пригодится быстрая набортная память), финансовое моделирование и инференс-системы для машинного обучения. Найдет своё применение новинка и в сетевых устройствах поколения 800G: маршрутизаторах, умных коммутаторах и брандмауэрах. NPU классической компоновки с такой производительностью потребует нескольких сетевых процессоров и отдельных подсистем памяти, а новые Versal справляются в одиночку и при этом потребляют меньше энергии, что, естественно, положительных сказывается на стоимости владения и обслуживания ЦОД.

Доступна новая версия Xilinx ACAP будет в первой половине следующего года в серии Versal Premium, затем быструю набортную память получат и обычные Versal. Документация и средства разработки появятся раньше, уже во второй половине этого года. Детали можно узнать на сайте Xilinx.

Постоянный URL: http://servernews.ru/1044242
01.07.2021 [18:32], Андрей Галадей

Патчи для ядра Linux указывают на то, что следующий ускоритель AMD Instinct получит MCM-компоновку и 64 Гбайт HBM

Для новых гетерогенных вычислительных систем AMD готовятся свежие патчи ядра Linux. Речь идёт о системах на базе новых ускорителей Aldebaran (вероятно, под именем MI200), которые будут подключаться к CPU и GPU и получат HBM2-память. Эти обновления касаются драйвера AMD64 EDAC.

Обычно он предназначен для обработки и исправления системных ошибок DRAM ECC, но теперь его функциональность расширили под новые гетерогенные системы. Как ожидается, свежие патчи появятся в ядре Linux 5.14 (менее вероятно) или 5.15 (более вероятно).

Как ожидается, ускорители Aldebaran станут заменой для AMD Instinct MI100 (кодовое имя Arcturus). Судя по содержимому патчей, модули Aldebaran получат MCM-исполнение (ожидается, что это будут два блока Arcturus) с четырьмя унифицированными контроллерами памяти, по 8 каналов у каждого. А каждый канал будет подключен к 2 Гбайт HBM2(e), то есть суммарный объём набортной памяти составит 64 Гбайт.

Само собой, такие системы найдут применение только в дата-центрах и суперкомпьютерах. Про Aldebaran, в частности, неоднократно говорилось, что этот ускоритель в форм-факторе OAM получат системы на базе HPE Cray Ex. Будет ли это Frontier, для которого уже готовится поддержка согласованного обращения к памяти CPU и GPU, не уточняется.

Постоянный URL: http://servernews.ru/1043252
30.06.2021 [20:56], Владимир Агапов

Qualcomm анонсировала платформу FSM200xx для малых 5G-сот и ускоритель 5G DU X100

Qualcomm объявила о расширении сотрудничества с операторами с целью продвижения технологии mmWave, анонсировала DU-ускоритель для серверов и представила платформу малых сот для O-RAN. Продвинутая функциональность и расширенная поддержка частотных диапазонов в сочетании с открытой экосистемой в свежих решениях ускорят появление новых приложений и расширят доступность 5G во всём мире.

Разработанная Qualcomm RAN-платформа используется в индустрии малых сот уже порядка десяти лет. В связи со значительным ростом спроса на оборудование 5G, а также популярности технологии Open RAN, в прошлом году компания анонсировала портфель поддерживающих их решений на базе собственных систем на кристалле (SoC). По словам Джерардо Джиаретта (Gerardo Giaretta), старшего директора по управлению продуктами, компания сосредоточена на физическом уровне инфраструктуры 5G.

В рамках проводимой работы, L1-оборудование, такое как радиочастотные блоки, было значительно усовершенствовано, а на его основе появилось второе поколение платформы — FSM200xx, — которое обеспечивает поддержку полосы шириной 1 ГГц и скорость передачи данных 8 Гбит/с. Также реализована 200-МГц агрегация в диапазоне Sub-6 (и FDD, и TDD), что обеспечивает скорость до 4 Гбит/c. Поддерживаются все коммерческие диапазоны mmWave, включая новые n258(26 ГГц) и n259(41 ГГц).

Использование 4-нм техпроцесса позволит достичь высокого уровня энергоэффективности, компактности и надёжности платформы в целом. Поэтому она хорошо подойдёт для развёртывания в проблемных (с точки зрения питания и габаритов) местах, как внутри так и вне помещений. А поддержка PoE упрощает монтаж и сокращает накладные расходы.

FSM200xx соответствует самой свежей спецификации 3GPP Release 16, которая включает ряд дополнительных возможностей — к примеру, сверхнадёжную связь с низкими задержками (eURLLC), критичную для управления машинами и механизмами. Для продвижения новых технологий, включая mmWave, Qualcomm объявила о сотрудничестве с более чем 35 операторами и поставщиками услуг 5G в Китае, Европе, Японии, Корее, США и других странах.

Также компания анонсировала PCIe-ускоритель Qualcomm 5G DU X100 для стандартных коммерческих серверов, которая выполняет функции обработки L1-сигнала, одновременно для Sub-6 и mmWave. Производитель утверждает, что DU X100 смогут повысить производительность сети и значительно снизить требования к CPU, уменьшив тем самым энергопотребление. А совместимость с O-RAN даст OEM-производителям и операторам дополнительную гибкость при развёртывании и поспособствует появлению инноваций в экосистеме 5G.

Сейчас Qualcomm работает с рядом операторов над продвижением O-RAN. Airspan, Altiostar, Askey, Baicells, Capgemini, Engineering, Foxconn, Radisys и Sercomm трудятся над новыми устройствами на платформе FSM200xx, а о подержке DU X100 предварительно сообщили Dell и HPE. Доступность обоих продуктов для заказчиков ожидается в первой половине 2022 года.

Постоянный URL: http://servernews.ru/1043229
28.06.2021 [19:19], Владимир Агапов

Baidu выделила подразделение ИИ-чипов Kunlun в независимую компанию

Подразделение Kunlun Chip, созданное китайским поисковым и облачным гигантом Baidu, преобразовано в независимую компанию. По мнению аналитиков, это позволит Kunlun привлечь новые средства и получить большую гибкость в работе. Также этот шаг поможет снизить риски для Baidu, поскольку развитие нового бизнеса по производству чипов все ещё находится в состоянии неопределенности.

«Baidu вложила в новую компанию свой опыт в области чипов за последние 10 лет и продолжит инвестиции, для того чтобы сделать её ведущей в отрасли интеллектуальных вычислений и полупроводников», — сказал главный архитектор чипов Baidu, Оуян Цзянь (Ouyang Jian), который возглавит Kunlun Chip. При этом чипы Kunlun сейчас есть только в решениях Baidu, и данных о том, что они будут доступны более широкому кругу заказчиков, пока нет.

По итогам мартовского инвестиционного раунда, проведённого частной инвесткомпанией CITIC Private, Kunlun Chip была оценена в $2 млрд. Главными инвесторами выступили China Pinnacle Equity Management, IDG Capital и Legend Capital. Основным акционером Kunlun Chip остаётся Baidu, владеющая примерно 76% акций.

Чипы Kunlun — это универсальные ИИ-микропроцессоры, предназначенные для периферийных вычислений, выполнения алгоритмов ML и DL. С помощью них клиенты могут оптимизировать рабочие нагрузки и улучшать структуру облачных затрат при работе с ИИ-приложениями. Ожидается, что особенно значительный рост спроса на них будет в таких областях, как беспилотные автомобили и серверы облачных вычислений.

Впервые эти ИИ-чипы были анонсированы на конференции Baidu AI Developer в 2018 году, как ключевой компонент для задач компьютерного зрения и обработки естественного языка. С тех пор, с учётом наступающей эпохи Интернета вещей, подобные чипы стали новым фокусом конкуренции для китайских технологических гигантов. По словам отраслевых экспертов, конкуренция усилилась на фоне недавнего глобального дефицита и ограничения США на поставки комплектующих китайским компаниям.

Правительство КНР намерено к 2035 г. достичь полной самодостаточности на рынке полупроводников. Согласно тематическому исследованию GlobalData, для этого государством недавно была разработана программа стоимостью $1,4 трлн. для поддержки НИОКР в ключевых областях. Однако в настоящее время чипы Kunlun производит Samsung по нормам 14 нм, соглашение о сотрудничестве с которой Baidu заключила в 2019 г. Первое поколение процессоров Kunlun было произведено в начале 2020 г., а начало массового производства второго поколения намечено на вторую половину 2021 г.

Постоянный URL: http://servernews.ru/1043039
24.06.2021 [11:54], Владимир Агапов

BittWare представила FPGA-ускорители IA-420F и IA-220-U2 на базе Intel Agilex

Компания BitWare объявила о расширении серии ускорителей IA, основанных на программируемых матрицах Intel Agilex. Добавлено 2 новые модели: IA-420F (низкопрофильная PCIe-карта) и IA-220-U2 (U.2). Вместе с выпущенным ранее двухслотовым PCIe-ускорителем IA-840F, серия IA теперь охватывает 3 наиболее востребованных в ЦОД и сетевой инфраструктуре форм-фактора, что значительно повышает гибкость развёртывания.

Ускоритель IA-420F предназначен для использования в качестве SmartNIC и для вычислительных хранилищ (computational storage). Эта однослотовая HHHL-карта может быть установлена практически в любые серверные и периферийные устройства. В состав платы входят: микросхема FPGA Intel AGF 014 на 1,437 млн логических элементов, 2 Гбит загрузочной флеш-памяти, 2 банка DDR4 (до 16 ГБайт каждый), 8 линий GPIO. Для программирования и отладки на плату выведен порт USB, подключённый к набортному BMC.

Сетевой интерфейс представлен разъёмом QSFP-DD (200 Гбит/с), соединённым с FPGA через восемь 25G-трансиверов. Предусмотрена программируемые пользователем 10/25/40/100GbE-подключения, а также поддержка синхронизации с подавлением джиттера с внешним источником точного времени. FPGA напрямую подключена к линиям PCIe 4.0 x16. Максимальное энергопотребление составляет 75 Вт.

Модуль IA-220-U2 выполнен в форм-факторе U.2 (15 мм) и оптимизирован для работы с пассивным охлаждением — максимальное энергопотребление составляет 25 Вт. Он предназначен для рабочих нагрузок, связанных с NVMe СХД. Основной элемент платы — та же FPGA Intel AGF 014 с двумя банками памяти DRR4-2400 (до 8 ГБайт).

Кроме того, есть SMBus контроллер с поддержкой NVMe-MI 1.а, что позволяет легко обновлять ПО FPGA. Также есть выводы JTAG и GPIO. Ускоритель IA-220-U2 имеет интерфейс PCIe 4.0 x4 и может быть установлен в обычные 2U СХД. Его удобно использовать в платформах, где имеется избыток слотов U.2, но нет свободных слотов PCIe.

Благодаря использованию в обоих модулях ПЛИС Intel Agilex, пользователям доступен oneAPI — унифицированный набор средств разработки, который, по словам создателей, позволяет заказчикам быстро перейти от создания пробных образцов к массовому развёртыванию, успешно выполняя все требования по квалификации, проверке, управлению жизненным циклом и поддержкой. Впрочем, никто не мешает воспользоваться и Quartus Prime Pro.

Постоянный URL: http://servernews.ru/1042715
15.06.2021 [17:19], Сергей Карасёв

Ускорители Intel Xe Ponte Vecchio в форм-факторе OAM будут использовать СЖО

В распоряжении интернет-источников оказалась новая порция информации об ускорителях Intel Ponte Vecchio, предназначенных для использования в системах высокопроизводительных вычислений (HPC). В частности, раскрыты подробности о системе охлаждения этих акселераторов.

Как мы уже сообщали, процессор Ponte Vecchio имеет «черепичный» дизайн с 47 элементами, а общее количество транзисторов превышает 100 млрд. Предусмотрено применение 3D-компоновки Foveros и соединений EMIB. Конструкцией Ponte Vecchio предусмотрено объединение кристаллов, изготавливающихся по 7-нм и 10-нм технологиям Intel Enhanced SuperFin (ESF), а также по 7-нм (или 5-нм) технологии TSMC.

Igor's Lab

Igor's Lab

Ускорители будут выполнены в форм-факторе Open Accelerator Module (OAM), о характеристиках которого можно узнать в нашем материале. Из-за особенностей архитектуры Ponte Vecchio будет иметь TDP в районе 600 Вт или более — спецификациями OAM предусмотрено энергопотребление до 700 Вт. Поэтому ускорители будут комплектоваться системой жидкостного охлаждения (СЖО).

Igor's Lab

Igor's Lab

На появившихся в интернете изображениях показана структура Ponte Vecchio вместе с кулером. Добавим, что ускорители Ponte Vecchio обеспечат производительность свыше одного петафлопса. Система жидкостного охлаждения позволит им стабильно работать при постоянных нагрузках. Впрочем, использование СЖО в HPC-системах уже давно стало нормой.

Постоянный URL: http://servernews.ru/1042052
01.06.2021 [23:21], Игорь Осколков

Тестовый HPC-ускоритель EPAC 1.0 для будущих европейских суперкомпьютеров готов к производству

Консорциум EPI (European Processor Initiative), созданный с целью разработки собственных чипов для будущих европейских суперкомпьютеров и, таким образом, обретения независимости от США в области высокопроизводительных вычислений (HPC), сообщил об успешном завершении работ над тестовым чипом EPAC 1.0 и готовности его к производству по 22-нм техпроцессу GlobalFoundries FD-SOI (22FDX), который доступен на фабрике в Дрездене.

EPAC (European Processor Accelerators) базируется на полностью открытом наборе команд RISC-V, а тестовый чип включает сразу несколько различных типов акселераторов: два вида блоков векторной обработки (суммарно 5 шт.), блок STX (Stencil & Tensor) и блок для расчётов переменной точности, которые объединены быстрым интерконнектом. Все компоненты, включая L2-кеш и SerDes-блоки, разработаны исключительно европейскими компаниями и университетами.

Укоритель EPAC 1.0 Источник: EPI

Укоритель EPAC 1.0 Источник: EPI

По словам создателей, им удалось добиться поставленной цели — создать энергоэффективный чип, который позволил бы блокам ускорителей работать на частоте выше 1 ГГц и обмениваться данными между собой и с периферией на скорости более 200 Гбит/с. Следующее поколение чипов будет переведено на 12-нм техпроцесс, который, правда, в Европе пока не представлен, и получит чиплетный дизайн. EPAC составит компанию европейским 7-нм Arm-процессорам SiPearl Rhea, которые, согласно планам, должны появиться в этом году.

Постоянный URL: http://servernews.ru/1040991
20.05.2021 [16:40], Владимир Агапов

Google похвасталась самым быстрым ИИ-кластером на базе ускорителей TPU v4

На мероприятии Google I/O генеральный директор компании Сундар Пичаи (Sundar Pichai) заявил, что кластер из 4096 модулей TPU v4, оборудованный системой жидкостного охлаждения, обладает производительностью порядка 1 Эфлопс. «Это самая быстрая система, которую мы когда-либо развертывали в Google, это историческая веха для нас», — сказал Пичаи.

Формально такой результат почти вдове превышает пиковую производительность системы Fugaku, возглавляющей список TOP500 самых производительных суперкомпьютеров мира. Однако TPU адаптированы для построения систем другого класса, поэтому такой результат был достигнут в вычислениях с меньшей точностью (вплоть до int8), которой для задач машинного обучения в ряде случаев вполне достаточно. Для сравнения — Fugaku в бенчмарке HPL-AI показывает результат в 2 Эфлопс.

Google: TPU Pod

Высокая производительность созданного кластера достигнута не только благодаря TPU v4, но и особой технологии интерконнекта, позволяющего объединить сотни отдельных вычислителей в единую систему TPU Pod. Благодаря этому пропускная способность на чип, по словам компании, вдесятеро выше, чем при использовании любой другой доступной сегодня сетевой технологии.

Потребность компании в решениях такого класса связана с развитием инструментов для обработки больших наборов данных и прогнозирования на их основе, для анализа естественного языка и улучшения работы с поисковыми запросами, для машинного перевода Google Translate, для улучшения возможностей сервиса Google Photos и других. Инстансы с TPU v4 также будут доступны клиентам Google Cloud в конце этого года.

TPU (Tensor Processor Unit) — это семейство собственных ускорителей Google для нейронных сетей, которые обеспечивают более высокую производительность на Ватт в сравнении с CPU и GPU. Впервые компания применила его в своих дата-центрах ещё в 2016 году. TPU v2 были выпущены в 2018-м, а через год появились и TPU v3 (на фото выше), которым уже потребовалось жидкостное охлаждение для сохранения плотности размещения. А возможности TPU v4 впервые были продемонстрированы в прошлом году.

Постоянный URL: http://servernews.ru/1040035
Система Orphus