Материалы по тегу: ускоритель

02.12.2019 [14:58], Алексей Степин

NEC обновила векторные ускорители SX-Aurora и опубликовала планы на будущее

Векторые ускорители NEC SX-Aurora уже нельзя назвать новинкой ‒ скоро им исполнится два года и используют они далеко не самый передовой на сегодня 16-нм техпроцесс.

О новинках, связанных с этими любопытными векторными ускорителями, мы уже рассказывали в одной из заметок, посвящённых конференции SC19; компания представила ряд новых решений, в том числе, на базе AMD «Rome» и Intel Xeon 9200.

Основой платформы до недавних пор являлся ускоритель «Type 10», но в настоящее время NEC заменяет его новой моделью «Type 10E». Хотя техпроцесс не изменился, а тактовые частоты остались практически прежними, обновленные векторные процессоры используют более быстрые сборки HBM2. ПСП удалось поднять примерно на 10%, даже в самой дешёвой версии «Type 10CE» она теперь составляет 1 Тбайт/с против 750 Гбайт/с в версии «Type 10C».

Массовое производство ускорителей «Type 10E» будет развёрнуто в январе 2020 года. В серию пойдут три модели, отличающиеся типом охлаждения, тактовыми частотами и объёмом набортной памяти HBM2. Также компания опубликовала планы по дальнейшему развитию серии векторных процессоров SX-Aurora.

Чипы второго поколения, «Type 20» ожидаются в середине или конце следующего года. Они получат больше ядер, ещё более быструю память, а также неизвестные пока новые функции. По неподтверждённым данным, количество векторных ядер будет увеличено с 8 до 10, а сборок HBM2 станет 8 против 6 нынешних. Следующее поколение «Type 30» будет базироваться на новой архитектуре и увидит свет в 2022 году. Никаких подробностей об этом процессоре компания пока не раскрывает.

Постоянный URL: http://servernews.ru/998882
30.11.2019 [21:04], Алексей Степин

Intel опубликовала предварительные спецификации технологии Data Streaming Accelerator

Корпорация Intel выложила в свободный доступ предварительную версию спецификаций новой технологии DSA. Расшифровывается это как Data Streaming Accelerator (ускоритель потоковой передачи данных).

Данная технология должна будет заменить используемую ныне QuickData, являющуюся подмножеством Intel I/O Acceleration Technology. Появится поддержка DSA во всех новых процессорах Xeon.

Технология DSA призвана ускорить операции с перемещением и преобразованием данных в самых различных ситуациях — от локальной работы с различными типами памяти до сценариев типа «перемещение данных в другой узел кластера». Она также может выполнять ряд операций высокого уровня, таких как генерация и сверка контрольных сумм или сравнение различных регионов памяти с последующей выдачей разницы (delta); последнее может быть полезно для дедупликации данных.

Архитектура Intel DSA полностью поддерживает виртуализацию

Архитектура Intel DSA полностью поддерживает виртуализацию

Спецификации DSA предусматривают PCIe-совместимый интерфейс, что должно упростить разработку программного обеспечения с поддержкой новой технологии. Также в DSA реализована развитая поддержка виртуализации, существенно упрощающая проверку и миграцию виртуальных машин. В документации, опубликованной Intel, содержится полноценное описание новой технологии, которое может помочь разработчикам ПО уже сейчас, хотя речь и идёт о предварительных спецификациях.

Постоянный URL: http://servernews.ru/998750
18.11.2019 [07:02], Игорь Осколков

SC19: подробности об архитектуре ускорителей Intel Xe HPC

Как и было обещано ранее, архитектура Xe (Exascale for everyone) будет универсальной, и на её основе можно будет создавать GPU любого уровня. Правда, речь, как оказалось, шла всё-таки больше о программной совместимости на уровне драйверов и интерфейсов для сохранения наследия, оставшегося от интегрированной графики. Ведь пользователей таких GPU миллионы и миллионы. 

А вот микроархитектур для разных задач будет несколько, и их соотношение в готовых продуктах тоже будет разным.

Ускоритель Intel X<sup>e</sup> HPC

Ускоритель Intel Xe HPC

Для ультрабуков и мобильных устройств всё так же останется интегрированная видеокарта класса Xe LP (Low Power) с упором на энергоэффективность. В картах среднего уровня Intel сделает акцент на графическую составляющую. Решения класса Xe HP для дата-центров уже не имеют существенных ограничений по питанию, поэтому получат более мощные вычислительные блоки.

Наконец, карты Xe HPC под кодовым названием Ponte Vecchio, которые и были представлены сегодня, получат тысячи исполнительных блоков и будут самыми мощными во всей серии. Ускорители Xe будут сочетать подходы SIMT и SIMD, характерные для GPU и CPU соответственно, и использовать векторные инструкции переменной длины. Предварительные тесты показывают, что такое сочетание может дать прирост в 1,5–2,5 раза на некоторых классах задач. Для упрощения разработки и портирования кода предлагается воспользоваться oneAPI, который также был анонсирован в рамках доклада Intel.

Кроме того, новые ускорители обещают эффективную работу и с разными типами данных. Для форматов INT8, Bfloat16 и FP32 будет отдельный движок Matrix Engine для параллельной обработки матриц. Вероятно, это аналог TensorCore. Проще говоря, всё это нужно для ИИ, машинного обучения и так далее. Но и классические для HPC вычисления двойной точности тоже не забыты. Обещано ускорение таких операций до 40 раз на каждый исполнительный блок.

Масштабирование касается не только типов вычислительных блоков и их числа, но и доступа к памяти, который в Xe тоже кардинально переделали. Сами блоки Xe и HBM2-память связаны посредством отдельной фабрики XEMF (XE Memory Fabric) с поддержкой когерентности. К ней же подключаются и CPU, и GPU, и другие ускорители. XEMF оснащена особым, сверхбыстрым и ёмким кешем Rambo Cache. Такой подход призван устранить дисбаланс, характерный для ряда современных ускорителей, которые могут попросту не получать вовремя данные для обработки.

Конкретный размер Rambo Cache пока не уточняется, но говорится, что его объёма хватит для наиболее крупных блоков данных, которые сейчас используются при вычислениях. Rambo Cache будет упакован с помощью Foveros, а для подключения HBM-памяти будет использоваться EMIB. Техпроцесс, как уже было сказано много-много раз, будет 7-нм.

Кроме того, ускорители Xe HPC получат те же технологии обеспечения надёжности и стабильности работы, что используются в Intel Xeon. Итого: к 2021 году за счёт аппаратных и программных инноваций компания обещает в 500 раз повысить производительность вычислительных узлов на базе технологий Intel.

Постоянный URL: http://servernews.ru/997874
30.10.2019 [15:45], Геннадий Детинич

BittWare VectorPath S7t: ускоритель на базе 7-нм ПЛИС Achronix Speedster7t с 400Gb-интерфейсом

Компания BittWare, которая входит в широко известную группу Molex, представила интересный ускоритель расчётов на программируемых матрицах компании Achronix. Это ускорители VectorPath S7t-VG6 на 7-нм ПЛИС Achronix Speedster7t.

Поставки ускорителей в виде отдельных карт или в составе готовых систем компаний Dell или HP стартуют в начале второго квартала 2020 года.

Видимо, к этому времени с дефицитом 7-нм линий будет покончено. Сейчас спрос на 7-нм мощности находится в стадии ажиотажа.

Отдельно надо отметить, что компания Achronix долгое время была клиентом скромного, но многообещающего контрактного производства Intel. Увы, компания Intel перекормила «завтраками» всех, включая себя. Похоже, терпение Achronix иссякло, и производство новых ПЛИС она предпочла разместить за пределами заводов Intel. Вероятнее всего, этим будет заниматься компания TSMC, но мы пока не будем на этом настаивать.

Что касается ускорителей BittWare S7t-VG6, то ещё одной изюминкой платформы станет использование в качестве основной бортовой памяти память типа GDDR6 объёмом до 8 Гбайт. Суммарная пропускная способность подсистемы памяти в составе ускорителя BittWare S7t-VG6 будет достигать 4 Тбайт/с.

По словам разработчиков, это разумная по цене альтернатива памяти HBM. Почти не уступая ей по скорости доступа, память GDDR6 окажется ощутимо дешевле и удержит стоимость ускорителей BittWare на приемлемом уровне.

Кроме памяти GDDR6 на плате ускорителя можно обнаружить банк памяти DDR4-2666 с поддержкой ECC и три порта Ethernet: один 400 GbE и два 100 GbE. В комплекте с ускорителями поставляются инструменты для разработки приложений, драйвера и примеры, включая приложения для диагностики ускорителя.

Блок-схема ускорителя BittWare S7t-VG6

Блок-схема ускорителя BittWare S7t-VG6

О стоимости решений не сообщается. Поставки ускорителей BittWare S7t-VG6, повторим, стартуют в начале второго квартала будущего года.

Постоянный URL: http://servernews.ru/996543
24.10.2019 [14:39], Геннадий Детинич

BrainChip получила патент, приближающий эру периферийных ИИ

Австралийская компания BrainChip интересна разработкой нейроморфной SoC Akida с впечатляющими энергоэффективным характеристиками и, что важно, не в ущерб производительности.

Подобная заявка покрывает сферу периферийных решений с ИИ, когда вопрос с питанием и производительностью стоит не просто остро, а во главе угла.

Но компания создаёт не только платформу. Он также разрабатывает основополагающую технологию для нейроморфных вычислений с использованием ускорителей так называемых спайковых нейронных сетей.

Патенты BrainChip, например, в своих исследованиях используют такие компании как IBM, Qualcomm, Samsung и Hewlett Packard. Действующий патентный пул BrainChip весьма скромный ― 11 патентов, часть из которых всё ещё находится в разработке. Но наследие компании продолжает расти.

Как докладывает HPC Wire, BrainChip получила патент США за номером 10410117, который относится к динамической работе нейронной сети в составе ИИ-ускорителя. Это могут быть блоки в составе процессоров и ускорителей сторонних компаний, но BrainChip, безусловно, разработала эту технологию, в первую очередь, под себя.

Кстати, совсем скоро мы можем услышать о воплощении SoC Akida в кремнии. Во всяком случае, компания обещала начать производство решений в третьем квартале 2019 года.

Что касается нового патента BrainChip, то он описывает технологию, когда [весовые] значения генерируются и сохраняются в синаптических регистрах SoC, где используются для создания модели обучения. Сами модели хранятся в устройстве на базе SoC в виде библиотек и могут быть использованы для обучения другого устройства. Грубо говоря, одна камера наблюдения может научиться распознавать определённого человека и обучить этому всю сеть аналогичных камер.

На основе представленной технологии разработчики смогут создавать компактные ИИ-платформы для помощи водителям, для автопилотов, компьютерного зрения в целом, для систем дополненной и виртуальной реальности, для анализа звуков и речи, промышленного IoT и многого другого, о чём мы пока даже не смеем мечтать.

Постоянный URL: http://servernews.ru/996165
24.10.2019 [13:40], Сергей Карасёв

Orange Pi AI Stick Lite: компактный ИИ-ускоритель за $20

Для заказа доступно устройство Orange Pi AI Stick Lite, предназначенное для ускорения выполнения различных операций, связанных с искусственным интеллектом (ИИ).

Новинка выполнена в виде компактного брелока с коннектором USB. Габариты составляют всего 66,5 × 20,5 × 10,8 мм.

Основой служит процессор Gyrfalcon SPR2801S Lightspeeur с движком Matrix Processing Engine (MPE). Заявленное пиковое быстродействие составляет 5,6 TOPS (триллионов операций в секунду) при частоте 100 МГц.

Устройство оснащено флеш-памятью eMMC 4.5, но её размер не уточняется. Зато называются скоростные показатели: 68 Мбайт/с при чтении и 84,69 Мбайт/с при записи.

Говорится о поддержке интерфейса USB 3.0. Заявленный диапазон рабочих температур простирается от 0 до 40 градусов Цельсия.

Упомянута совместимость с программными библиотеками Tensorflow, Caffe и PyTorch. Приобрести ИИ-ускоритель Orange Pi AI Stick Lite можно за 20 долларов США

Постоянный URL: http://servernews.ru/996166
27.09.2019 [09:36], Владимир Мироненко

LEGO для ускорителей: Inspur представила референсную OCP-систему для модулей OAM

Компания Inspur анонсировала 26 сентября на саммите OCP Regional Summit в Амстердаме новую референсую платформу с UBB-платой (Universal Baseboard) для ускорителей в форм-факторе Open Accelerator Module (OAM). 

OAM был представлен Facebook в марте этого года. Он очень похож на слегка увеличенный (102 × 165 мм) модуль NVIDIA SXM2: «плиточка» с группами контактов на дне и радиатором на верхней крышке. 

Ключевые спецификации модуля OAM:

  • Линии питания 12 В (до 350 Вт) и 48 В (до 700 Вт )
  • Поддержка модулем одной или нескольких ASIC
  • Хост-подключение: 1 или 2 PCI-E x16
  • Межмодульное соединение: до 7 x16 или x20
  • Поддержка систем как воздушного, так жидкостного охлаждения
  • Объединение до 8 модулей в одной системе

OAM, в отличие от классических карт PCI-E, позволяет повысить плотнсть размещения ускорителей в системе без ущерба их охлаждению, а также увеличить скорость обмена данными между модулями, благодаря легко настраиваемой топологии соединений между ними. В числе поддержавших проект OCP Accelerator Module такие компании, как Intel, AMD, NVIDIA, Google,Microsoft, Baidu и Huawei. 

Inspur приступил к разработке референс-системы для ускорителей OAM в связи растущими требованиями, предъявляемыми к приложениям ИИ и необходимостью обеспечения взаимодействия между несколькими модулями на основе ASIC или GPU.

 

Данная платформа представляет собой 21" шасси стандарта Open Rack V2 с BBU для восьми модулей OAM. Плата BBU снабжена восемью коннекторами QSFP-DD для прямого подключения к другим BBU. 

Система Inspur OAM позволяет создавать кластеры из 16, 32, 64 и 128 модулей OAM и имеет гибкую архитектуру для поддержки инфраструктур с несколькими хостами. По требованию заказчика Inspur также может поставлять 19-дюймовые системы OAM. 

Одной из первых преимущества новинки для задач, связанных с ИИ и машинным обучением, оценила китайская Baidu, продемонстрировавшая собственное серверное решение X-Man 4.0 на базе платформы Inspur и восьми ускорителей.

Постоянный URL: http://servernews.ru/994713
04.09.2019 [17:30], Андрей Созинов

IFA 2019: NVIDIA представила мобильную Quadro RTX 6000 — самую мощную профессиональную видеокарту для ноутбуков

Компания NVIDIA представила новый ускоритель серии Quadro RTX – мобильную версию Quadro RTX 6000. Новинка является, пожалуй, самой производительной профессиональной видеокартой в мобильном сегменте.

К сожалению, компания NVIDIA не стала раскрывать полный список характеристик новинки. Известно лишь, что мобильная Quadro RTX 6000 обладает 24 Гбайт видеопамяти GDDR6.

Столько же имеет и настольная версия данной видеокарты, которая также обладает 4608 ядрами CUDA, 576 тензорными ядрами и 72 RT-ядрами. 

Скорее всего, мобильная RTX 6000 будет отличаться лишь более низкими таковыми частотами и сохранит конфигурацию ядер. Однако наверняка это будет известно несколько позже.

Также NVIDIA представила эталонную систему с новой профессиональной видеокартой, которая называется Ace Reference Design.

Эта мобильная рабочая станция обладает продвинутой системой охлаждения с ультратонкими титановыми испарительными камерами, поддерживает NVIDIA Optimus, комплектуется тонким и компактным блоком питания мощностью 300 Вт, а также профессиональным дисплеем с разрешением 4K, частотой 120 Гц, и 100 % охватом цветового пространства Adobe RGB.

На основе данной эталонной системы был создан ASUS ProArt StudioBook One, с которым мы уже подробно познакомились сегодня в рамках IFA 2019. Кроме того, сертификацию RTX Studio теперь имеют ещё 12 устройств. Среди них, например, ноутбуки Acer ConceptD 7 Pro и ConceptD 9 Pro, также продемонстрированные на IFA 2019. 

NVIDIA заявляет, что мобильная версия Quadro RTX 6000 устраняет существенный разрыв в производительности, который в настоящее время существует между мобильной Quadro RTX 5000 и настольной Quadro RTX 6000. Отставание должно составить примерно 10 % при обработке графики, редактировании видео, рендеринге и в задачах, связанных с Искусственным интеллектом. 

NVIDIA также упоминает о поддержке трассировки лучей в реальном времени в более чем 40 профессиональных приложениях, включая Adobe Photoshop Lightroom, Autodesk Arnold, Blender, Renderman и другие.

Постоянный URL: http://servernews.ru/991999
17.06.2019 [11:14], Сергей Карасёв

QNAP Mustang: акселераторы для систем искусственного интеллекта

Компания QNAP Systems анонсировала акселераторы серии Mustang, рассчитанные на применение в системах, использующих алгоритмы искусственного интеллекта и машинного обучения.

В семейство вошли два ускорителя — Mustang V100 и Mustang F100. Изделие Mustang V100 объединяет восемь процессоров Intel Movidius Myriad X MA2485. Решение подходит для систем машинного зрения. Акселератор выполнен в виде карты расширения с интерфейсом PCI Express x4. Габариты составляют 169,54 × 80,05 × 23,16 мм.

Ускоритель Mustang F100, в свою очередь, использует перепрограммируемую вентильную матрицу (FPGA) Intel Arria 10 GX1150. В оснащение входят 8 Гбайт памяти DDR4. Для установки акселератора требуется слот PCI Express x8. Размеры — 169,5 × 68,7 × 33,7 мм.

Акселераторы могут использоваться в серверах, настольных компьютерах, рабочих станциях, а также в сетевых хранилищах данных (NAS), допускающих установку карт расширения.

Говорится о совместимости с программными платформами Ubuntu 16.04.3 LTS, CentOS 7.4, Windows 10 и QTS. Информации об ориентировочной цене на данный момент, к сожалению, нет. 

Постоянный URL: http://servernews.ru/989282
13.06.2019 [18:27], Сергей Карасёв

Gyrfalcon 2803 Plai Plug: ИИ-акселератор в виде USB-брелока

Компания Gyrfalcon Technology анонсировала компактное устройство 2803 Plai Plug, призванное повысить производительность компьютеров при выполнении операций, связанных с искусственным интеллектом (ИИ).

Новинка представляет собой ИИ-акселератор, выполненный в виде USB-брелока. Поддерживается интерфейс USB 3.0, обеспечивающий пропускную способность до 5 Гбит/с.

В составе решения применён чип Gyrfalcon Lightspeeur 2803S. Заявлено быстродействие в 16,8 триллиона операций в секунду (TOPS) при энергопотреблении 700 мВт. Таким образом, производительность в расчёте на 1 Вт затрачиваемой энергии достигает 24 TOPS. Отмечается, что устройство Gyrfalcon 2803 Plai Plug может использоваться при решении таких задач, как распознавание изображений, обнаружение и отслеживание перемещения объектов, обработка естественной речи, визуальная аналитика, распознавание лиц, бизнес-аналитика и пр. 

SDK поддерживает фреймворки TensorFlowe, Caffe, ResNet, MobileNet, VGG CNN. Правда, компания теперь требует от потенциальных покупателей портфолио ИИ-проектов и примерные планы по использованию новинки и оставляет за собой право отказать в доступе к SDK и документации. Приобрести новинку можно будет по ориентировочной цене 70 долларов США. Конкурирующий продукт Intel Neural Compute Stick 2 (NCS 2) с VPU-процессорами Myriad X стоит $100.

Постоянный URL: http://servernews.ru/989148
Система Orphus