Материалы по тегу: ускоритель

12.03.2020 [19:44], Алексей Степин

Xilinx Versal Premium: сверхмощная гетерогенная платформа для сетей нового поколения

Компания Xilinx, один из ведущих разработчиков программируемых логических схем (ПЛИС), анонсировала третье поколение адаптивных сетевых процессоров Versal — Versal Premium. Новинка является наиболее производительной в серии и предназначена для использования в высокоскоростных сетях нового поколения.

Компания называет Versal «адаптивной платформой для ускорения вычислений» (adaptive compute acceleration, ACAP).

И действительно, архитектура Versal достаточно уникальна. По своей структуре она гетерогенна и включает в себя самые различные блоки — так, Versal Premium имеет в своём составе два ядра ARM Cortex-A72, два ядра ARM Cortex-R5F для приложений реального времени, набор движков DSP, набор криптографических движков, способных работать со скоростями до 400 Гбит/с, интерфейсы Ethernet со скоростями от 100 до 600 Гбит/с, контроллеры периферийных шин, а также набор программируемой логики, являющийся сердцем чипа.

Новый чип разработан с применением 7-нм технологического процесса TSMC и, по словам Xilinx, втрое превосходит другие ПЛИС, когда речь идёт о пропускной способности сетевых подсистем. Versal Premium должен стать новым словом в разработке однокристальных сетевых процессоров классов 400G и 800G. Полностью технические характеристики приведены на сайте компании-разработчика. Отметим только, что в старшем варианте Versal Premium будет иметь более 14 тысяч DSP-движков, 7352 ячейки системной логики и свыше 3,3 миллионов LUTs.

В сравнении с предыдущими чипами Versal, версия Premium получила трансиверы PAM4 со скоростью 112 Гбит/с, поддержку сетевого проткола Interlaken, высокоскоростные криптографические движки и реализацию PCI Express 5.0. В комплекте с платформами разработки Vitis и Vivado Design Suite это наиболее мощное на сегодня решение для разработчиков аппаратного и программного сетевого обеспечения нового поколения.

Плата VMK180 из комплекта разработчика Versal Prime Series

Плата VMK180 из комплекта разработчика Versal Prime Series

Пока речь идёт лишь об анонсе новой платформы. Поставки образцов Versal Premium избранным клиентам Xilinx начнутся в первой половине следующего года. Но документация уже доступна и разработчики могут приступить к прототипированию новых устройств, используя комплект Versal Prime Evaluation Kit.

Постоянный URL: http://servernews.ru/1005810
22.01.2020 [08:44], Алексей Степин

One Stop Systems представила 4U GPU-модуль AI on the Fly с поддержкой PCIe 4.0

Стандарт PCI Express 4.0 продолжает завоевывать рынок. Пока поддержкой новой шины обладают только процессоры AMD и IBM, но производители аппаратного обеспечения активно представляют новые устройства, способные работать на скоростях, обеспечиваемых PCIe 4.0.

Компания One Stop Systems (OSS) анонсировала систему расширения, предназначенную для увеличения вычислительной производительности уже имеющихся систем путём подключения восьми ускорителей NVIDIA Tesla V100S.

Новинка 4U Value Accelerator возглавляет серию AI on the Fly и предназначается для рынка супервычислений и решений класса mission critical, требующих высокой вычислительной производительности. Она представляет собой корпус формата 4U с установленной в нём платой с 10 слотами расширения PCI Express 4.0, а также двумя блоками питания общей мощностью 4000 Ватт.

Такая мощная система питания позволяет задействовать одновременно до восьми ускорителей NVIDIA Tesla V100 и развить мощность до 1,04 Пфлопс (в режиме тензорных вычислений до 65,6 Тфлопс). Разумеется, поддерживаются и другие ускорители: единственное требование — совместимость с PCI Express.

Кабели и бэкплейны OSS

Кабели и бэкплейны OSS

С другими машинами комплекс расширения соединяется посредством двух кабелей и плат PCIe 4.0 x16, что даёт пиковую пропускную способность на уровне 512 Гбайт/с. Поддерживается работа в режиме PCI Express 3.0, разумеется, с меньшей пропускной способностью. За распределение линий PCIe отвечает коммутатор Broadcom PEX88032.

Система охлаждения воздушная, используются вентиляторы либо с постоянной производительностью, либо с возможностью ручного регулирования скорости вращения. В первом случае поддерживаются платы расширения с теплопакетом до 300 Ватт. В арсенале OSS имеются и другие системы расширения, с различным количеством доступных слотов.

Постоянный URL: http://servernews.ru/1001950
02.12.2019 [14:58], Алексей Степин

NEC обновила серию ускорителей SX-Aurora и опубликовала планы относительно HPC

Компания NEC не спешит отказываться от своего уникального пути на рынке супервычислений и продолжает развивать серию векторных процессоров SX-Aurora.

На конференции SC19 компания представила ряд новых решений, сочетающих в себе SX-Aurora и новейшие процессоры AMD «Rome» Intel Xeon 9200.

Типы ускорителей SX-Aurora

Типы ускорителей SX-Aurora

Как и два года назад, основой платформы NEC является плата расширения «Type 10»; впрочем, в настоящее время производитель заменяет его на усовершенствованный «Type 10E» с более быстрыми сборками HBM2 на борту. За счёт этого ПСП удалось поднять на 10%, и даже в самом доступном варианте «Type 10CE» данный параметр теперь составляет 1 Тбайт/с против ранних 750 Гбайт/с.

Системы NEC на базе SX-Aurora

Системы NEC на базе SX-Aurora

Массовый выпуск плат NEC «Type 10E» намечен на январь 2020 года. Всего в семействе будет четыре модели, отличающиеся тактовыми частотами, объёмом HBM2 и системой охлаждения. Последняя будет представлена в воздушном активном и пассивном вариантах, также будет выпускаться и вариант с жидкостным охлаждением.

Сервер NEC A412-8 сочетает в себе SX-Aurora и AMD Rome

Сервер NEC A412-8 сочетает в себе SX-Aurora и AMD Rome

Компания не собирается останавливаться на достигнутом и чип текущего поколения VE10 будет заменён на VE20 уже в середине или конце 2020 года. Он получит ещё более быструю память, больше векторных ядер (возможно 10 против 8 сегодняшних) и неизвестные пока новые функции. Следующее за ним поколение, VE30, должно появиться в 2022 году. Об этом поколении данных пока нет — известно лишь, что эти процессоры будут иметь новую архитектуру.

Постоянный URL: http://servernews.ru/998882
30.11.2019 [21:04], Алексей Степин

Intel опубликовала предварительные спецификации технологии Data Streaming Accelerator

Корпорация Intel выложила в свободный доступ предварительную версию спецификаций новой технологии DSA. Расшифровывается это как Data Streaming Accelerator (ускоритель потоковой передачи данных).

Данная технология должна будет заменить используемую ныне QuickData, являющуюся подмножеством Intel I/O Acceleration Technology. Появится поддержка DSA во всех новых процессорах Xeon.

Технология DSA призвана ускорить операции с перемещением и преобразованием данных в самых различных ситуациях — от локальной работы с различными типами памяти до сценариев типа «перемещение данных в другой узел кластера». Она также может выполнять ряд операций высокого уровня, таких как генерация и сверка контрольных сумм или сравнение различных регионов памяти с последующей выдачей разницы (delta); последнее может быть полезно для дедупликации данных.

Архитектура Intel DSA полностью поддерживает виртуализацию

Архитектура Intel DSA полностью поддерживает виртуализацию

Спецификации DSA предусматривают PCIe-совместимый интерфейс, что должно упростить разработку программного обеспечения с поддержкой новой технологии. Также в DSA реализована развитая поддержка виртуализации, существенно упрощающая проверку и миграцию виртуальных машин. В документации, опубликованной Intel, содержится полноценное описание новой технологии, которое может помочь разработчикам ПО уже сейчас, хотя речь и идёт о предварительных спецификациях.

Постоянный URL: http://servernews.ru/998750
18.11.2019 [07:02], Игорь Осколков

SC19: подробности об архитектуре ускорителей Intel Xe HPC

Как и было обещано ранее, архитектура Xe (Exascale for everyone) будет универсальной, и на её основе можно будет создавать GPU любого уровня. Правда, речь, как оказалось, шла всё-таки больше о программной совместимости на уровне драйверов и интерфейсов для сохранения наследия, оставшегося от интегрированной графики. Ведь пользователей таких GPU миллионы и миллионы. 

А вот микроархитектур для разных задач будет несколько, и их соотношение в готовых продуктах тоже будет разным.

Ускоритель Intel X<sup>e</sup> HPC

Ускоритель Intel Xe HPC

Для ультрабуков и мобильных устройств всё так же останется интегрированная видеокарта класса Xe LP (Low Power) с упором на энергоэффективность. В картах среднего уровня Intel сделает акцент на графическую составляющую. Решения класса Xe HP для дата-центров уже не имеют существенных ограничений по питанию, поэтому получат более мощные вычислительные блоки.

Наконец, карты Xe HPC под кодовым названием Ponte Vecchio, которые и были представлены сегодня, получат тысячи исполнительных блоков и будут самыми мощными во всей серии. Ускорители Xe будут сочетать подходы SIMT и SIMD, характерные для GPU и CPU соответственно, и использовать векторные инструкции переменной длины. Предварительные тесты показывают, что такое сочетание может дать прирост в 1,5–2,5 раза на некоторых классах задач. Для упрощения разработки и портирования кода предлагается воспользоваться oneAPI, который также был анонсирован в рамках доклада Intel.

Кроме того, новые ускорители обещают эффективную работу и с разными типами данных. Для форматов INT8, Bfloat16 и FP32 будет отдельный движок Matrix Engine для параллельной обработки матриц. Вероятно, это аналог TensorCore. Проще говоря, всё это нужно для ИИ, машинного обучения и так далее. Но и классические для HPC вычисления двойной точности тоже не забыты. Обещано ускорение таких операций до 40 раз на каждый исполнительный блок.

Масштабирование касается не только типов вычислительных блоков и их числа, но и доступа к памяти, который в Xe тоже кардинально переделали. Сами блоки Xe и HBM2-память связаны посредством отдельной фабрики XEMF (XE Memory Fabric) с поддержкой когерентности. К ней же подключаются и CPU, и GPU, и другие ускорители. XEMF оснащена особым, сверхбыстрым и ёмким кешем Rambo Cache. Такой подход призван устранить дисбаланс, характерный для ряда современных ускорителей, которые могут попросту не получать вовремя данные для обработки.

Конкретный размер Rambo Cache пока не уточняется, но говорится, что его объёма хватит для наиболее крупных блоков данных, которые сейчас используются при вычислениях. Rambo Cache будет упакован с помощью Foveros, а для подключения HBM-памяти будет использоваться EMIB. Техпроцесс, как уже было сказано много-много раз, будет 7-нм.

Кроме того, ускорители Xe HPC получат те же технологии обеспечения надёжности и стабильности работы, что используются в Intel Xeon. Итого: к 2021 году за счёт аппаратных и программных инноваций компания обещает в 500 раз повысить производительность вычислительных узлов на базе технологий Intel.

Постоянный URL: http://servernews.ru/997874
30.10.2019 [15:45], Геннадий Детинич

BittWare VectorPath S7t: ускоритель на базе 7-нм ПЛИС Achronix Speedster7t с 400Gb-интерфейсом

Компания BittWare, которая входит в широко известную группу Molex, представила интересный ускоритель расчётов на программируемых матрицах компании Achronix. Это ускорители VectorPath S7t-VG6 на 7-нм ПЛИС Achronix Speedster7t.

Поставки ускорителей в виде отдельных карт или в составе готовых систем компаний Dell или HP стартуют в начале второго квартала 2020 года.

Видимо, к этому времени с дефицитом 7-нм линий будет покончено. Сейчас спрос на 7-нм мощности находится в стадии ажиотажа.

Отдельно надо отметить, что компания Achronix долгое время была клиентом скромного, но многообещающего контрактного производства Intel. Увы, компания Intel перекормила «завтраками» всех, включая себя. Похоже, терпение Achronix иссякло, и производство новых ПЛИС она предпочла разместить за пределами заводов Intel. Вероятнее всего, этим будет заниматься компания TSMC, но мы пока не будем на этом настаивать.

Что касается ускорителей BittWare S7t-VG6, то ещё одной изюминкой платформы станет использование в качестве основной бортовой памяти память типа GDDR6 объёмом до 8 Гбайт. Суммарная пропускная способность подсистемы памяти в составе ускорителя BittWare S7t-VG6 будет достигать 4 Тбайт/с.

По словам разработчиков, это разумная по цене альтернатива памяти HBM. Почти не уступая ей по скорости доступа, память GDDR6 окажется ощутимо дешевле и удержит стоимость ускорителей BittWare на приемлемом уровне.

Кроме памяти GDDR6 на плате ускорителя можно обнаружить банк памяти DDR4-2666 с поддержкой ECC и три порта Ethernet: один 400 GbE и два 100 GbE. В комплекте с ускорителями поставляются инструменты для разработки приложений, драйвера и примеры, включая приложения для диагностики ускорителя.

Блок-схема ускорителя BittWare S7t-VG6

Блок-схема ускорителя BittWare S7t-VG6

О стоимости решений не сообщается. Поставки ускорителей BittWare S7t-VG6, повторим, стартуют в начале второго квартала будущего года.

Постоянный URL: http://servernews.ru/996543
24.10.2019 [14:39], Геннадий Детинич

BrainChip получила патент, приближающий эру периферийных ИИ

Австралийская компания BrainChip интересна разработкой нейроморфной SoC Akida с впечатляющими энергоэффективным характеристиками и, что важно, не в ущерб производительности.

Подобная заявка покрывает сферу периферийных решений с ИИ, когда вопрос с питанием и производительностью стоит не просто остро, а во главе угла.

Но компания создаёт не только платформу. Он также разрабатывает основополагающую технологию для нейроморфных вычислений с использованием ускорителей так называемых спайковых нейронных сетей.

Патенты BrainChip, например, в своих исследованиях используют такие компании как IBM, Qualcomm, Samsung и Hewlett Packard. Действующий патентный пул BrainChip весьма скромный ― 11 патентов, часть из которых всё ещё находится в разработке. Но наследие компании продолжает расти.

Как докладывает HPC Wire, BrainChip получила патент США за номером 10410117, который относится к динамической работе нейронной сети в составе ИИ-ускорителя. Это могут быть блоки в составе процессоров и ускорителей сторонних компаний, но BrainChip, безусловно, разработала эту технологию, в первую очередь, под себя.

Кстати, совсем скоро мы можем услышать о воплощении SoC Akida в кремнии. Во всяком случае, компания обещала начать производство решений в третьем квартале 2019 года.

Что касается нового патента BrainChip, то он описывает технологию, когда [весовые] значения генерируются и сохраняются в синаптических регистрах SoC, где используются для создания модели обучения. Сами модели хранятся в устройстве на базе SoC в виде библиотек и могут быть использованы для обучения другого устройства. Грубо говоря, одна камера наблюдения может научиться распознавать определённого человека и обучить этому всю сеть аналогичных камер.

На основе представленной технологии разработчики смогут создавать компактные ИИ-платформы для помощи водителям, для автопилотов, компьютерного зрения в целом, для систем дополненной и виртуальной реальности, для анализа звуков и речи, промышленного IoT и многого другого, о чём мы пока даже не смеем мечтать.

Постоянный URL: http://servernews.ru/996165
24.10.2019 [13:40], Сергей Карасёв

Orange Pi AI Stick Lite: компактный ИИ-ускоритель за $20

Для заказа доступно устройство Orange Pi AI Stick Lite, предназначенное для ускорения выполнения различных операций, связанных с искусственным интеллектом (ИИ).

Новинка выполнена в виде компактного брелока с коннектором USB. Габариты составляют всего 66,5 × 20,5 × 10,8 мм.

Основой служит процессор Gyrfalcon SPR2801S Lightspeeur с движком Matrix Processing Engine (MPE). Заявленное пиковое быстродействие составляет 5,6 TOPS (триллионов операций в секунду) при частоте 100 МГц.

Устройство оснащено флеш-памятью eMMC 4.5, но её размер не уточняется. Зато называются скоростные показатели: 68 Мбайт/с при чтении и 84,69 Мбайт/с при записи.

Говорится о поддержке интерфейса USB 3.0. Заявленный диапазон рабочих температур простирается от 0 до 40 градусов Цельсия.

Упомянута совместимость с программными библиотеками Tensorflow, Caffe и PyTorch. Приобрести ИИ-ускоритель Orange Pi AI Stick Lite можно за 20 долларов США

Постоянный URL: http://servernews.ru/996166
27.09.2019 [09:36], Владимир Мироненко

LEGO для ускорителей: Inspur представила референсную OCP-систему для модулей OAM

Компания Inspur анонсировала 26 сентября на саммите OCP Regional Summit в Амстердаме новую референсую платформу с UBB-платой (Universal Baseboard) для ускорителей в форм-факторе Open Accelerator Module (OAM). 

OAM был представлен Facebook в марте этого года. Он очень похож на слегка увеличенный (102 × 165 мм) модуль NVIDIA SXM2: «плиточка» с группами контактов на дне и радиатором на верхней крышке. 

Ключевые спецификации модуля OAM:

  • Линии питания 12 В (до 350 Вт) и 48 В (до 700 Вт )
  • Поддержка модулем одной или нескольких ASIC
  • Хост-подключение: 1 или 2 PCI-E x16
  • Межмодульное соединение: до 7 x16 или x20
  • Поддержка систем как воздушного, так жидкостного охлаждения
  • Объединение до 8 модулей в одной системе

OAM, в отличие от классических карт PCI-E, позволяет повысить плотнсть размещения ускорителей в системе без ущерба их охлаждению, а также увеличить скорость обмена данными между модулями, благодаря легко настраиваемой топологии соединений между ними. В числе поддержавших проект OCP Accelerator Module такие компании, как Intel, AMD, NVIDIA, Google,Microsoft, Baidu и Huawei. 

Inspur приступил к разработке референс-системы для ускорителей OAM в связи растущими требованиями, предъявляемыми к приложениям ИИ и необходимостью обеспечения взаимодействия между несколькими модулями на основе ASIC или GPU.

 

Данная платформа представляет собой 21" шасси стандарта Open Rack V2 с BBU для восьми модулей OAM. Плата BBU снабжена восемью коннекторами QSFP-DD для прямого подключения к другим BBU. 

Система Inspur OAM позволяет создавать кластеры из 16, 32, 64 и 128 модулей OAM и имеет гибкую архитектуру для поддержки инфраструктур с несколькими хостами. По требованию заказчика Inspur также может поставлять 19-дюймовые системы OAM. 

Одной из первых преимущества новинки для задач, связанных с ИИ и машинным обучением, оценила китайская Baidu, продемонстрировавшая собственное серверное решение X-Man 4.0 на базе платформы Inspur и восьми ускорителей.

Постоянный URL: http://servernews.ru/994713
04.09.2019 [17:30], Андрей Созинов

IFA 2019: NVIDIA представила мобильную Quadro RTX 6000 — самую мощную профессиональную видеокарту для ноутбуков

Компания NVIDIA представила новый ускоритель серии Quadro RTX – мобильную версию Quadro RTX 6000. Новинка является, пожалуй, самой производительной профессиональной видеокартой в мобильном сегменте.

К сожалению, компания NVIDIA не стала раскрывать полный список характеристик новинки. Известно лишь, что мобильная Quadro RTX 6000 обладает 24 Гбайт видеопамяти GDDR6.

Столько же имеет и настольная версия данной видеокарты, которая также обладает 4608 ядрами CUDA, 576 тензорными ядрами и 72 RT-ядрами. 

Скорее всего, мобильная RTX 6000 будет отличаться лишь более низкими таковыми частотами и сохранит конфигурацию ядер. Однако наверняка это будет известно несколько позже.

Также NVIDIA представила эталонную систему с новой профессиональной видеокартой, которая называется Ace Reference Design.

Эта мобильная рабочая станция обладает продвинутой системой охлаждения с ультратонкими титановыми испарительными камерами, поддерживает NVIDIA Optimus, комплектуется тонким и компактным блоком питания мощностью 300 Вт, а также профессиональным дисплеем с разрешением 4K, частотой 120 Гц, и 100 % охватом цветового пространства Adobe RGB.

На основе данной эталонной системы был создан ASUS ProArt StudioBook One, с которым мы уже подробно познакомились сегодня в рамках IFA 2019. Кроме того, сертификацию RTX Studio теперь имеют ещё 12 устройств. Среди них, например, ноутбуки Acer ConceptD 7 Pro и ConceptD 9 Pro, также продемонстрированные на IFA 2019. 

NVIDIA заявляет, что мобильная версия Quadro RTX 6000 устраняет существенный разрыв в производительности, который в настоящее время существует между мобильной Quadro RTX 5000 и настольной Quadro RTX 6000. Отставание должно составить примерно 10 % при обработке графики, редактировании видео, рендеринге и в задачах, связанных с Искусственным интеллектом. 

NVIDIA также упоминает о поддержке трассировки лучей в реальном времени в более чем 40 профессиональных приложениях, включая Adobe Photoshop Lightroom, Autodesk Arnold, Blender, Renderman и другие.

Постоянный URL: http://servernews.ru/991999
Система Orphus