Материалы по тегу: ускоритель

18.11.2019 [07:02], Игорь Осколков

SC19: подробности об архитектуре ускорителей Intel Xe HPC

Как и было обещано ранее, архитектура Xe (Exascale for everyone) будет универсальной, и на её основе можно будет создавать GPU любого уровня. Правда, речь, как оказалось, шла всё-таки больше о программной совместимости на уровне драйверов и интерфейсов для сохранения наследия, оставшегося от интегрированной графики. Ведь пользователей таких GPU миллионы и миллионы. 

А вот микроархитектур для разных задач будет несколько, и их соотношение в готовых продуктах тоже будет разным.

Ускоритель Intel X<sup>e</sup> HPC

Ускоритель Intel Xe HPC

Для ультрабуков и мобильных устройств всё так же останется интегрированная видеокарта класса Xe LP (Low Power) с упором на энергоэффективность. В картах среднего уровня Intel сделает акцент на графическую составляющую. Решения класса Xe HP для дата-центров уже не имеют существенных ограничений по питанию, поэтому получат более мощные вычислительные блоки.

Наконец, карты Xe HPC под кодовым названием Ponte Vecchio, которые и были представлены сегодня, получат тысячи исполнительных блоков и будут самыми мощными во всей серии. Ускорители Xe будут сочетать подходы SIMT и SIMD, характерные для GPU и CPU соответственно, и использовать векторные инструкции переменной длины. Предварительные тесты показывают, что такое сочетание может дать прирост в 1,5–2,5 раза на некоторых классах задач. Для упрощения разработки и портирования кода предлагается воспользоваться oneAPI, который также был анонсирован в рамках доклада Intel.

Кроме того, новые ускорители обещают эффективную работу и с разными типами данных. Для форматов INT8, Bfloat16 и FP32 будет отдельный движок Matrix Engine для параллельной обработки матриц. Вероятно, это аналог TensorCore. Проще говоря, всё это нужно для ИИ, машинного обучения и так далее. Но и классические для HPC вычисления двойной точности тоже не забыты. Обещано ускорение таких операций до 40 раз на каждый исполнительный блок.

Масштабирование касается не только типов вычислительных блоков и их числа, но и доступа к памяти, который в Xe тоже кардинально переделали. Сами блоки Xe и HBM2-память связаны посредством отдельной фабрики XEMF (XE Memory Fabric) с поддержкой когерентности. К ней же подключаются и CPU, и GPU, и другие ускорители. XEMF оснащена особым, сверхбыстрым и ёмким кешем Rambo Cache. Такой подход призван устранить дисбаланс, характерный для ряда современных ускорителей, которые могут попросту не получать вовремя данные для обработки.

Конкретный размер Rambo Cache пока не уточняется, но говорится, что его объёма хватит для наиболее крупных блоков данных, которые сейчас используются при вычислениях. Rambo Cache будет упакован с помощью Foveros, а для подключения HBM-памяти будет использоваться EMIB. Техпроцесс, как уже было сказано много-много раз, будет 7-нм.

Кроме того, ускорители Xe HPC получат те же технологии обеспечения надёжности и стабильности работы, что используются в Intel Xeon. Итого: к 2021 году за счёт аппаратных и программных инноваций компания обещает в 500 раз повысить производительность вычислительных узлов на базе технологий Intel.

Постоянный URL: http://servernews.ru/997874
30.10.2019 [15:45], Геннадий Детинич

BittWare VectorPath S7t: ускоритель на базе 7-нм ПЛИС Achronix Speedster7t с 400Gb-интерфейсом

Компания BittWare, которая входит в широко известную группу Molex, представила интересный ускоритель расчётов на программируемых матрицах компании Achronix. Это ускорители VectorPath S7t-VG6 на 7-нм ПЛИС Achronix Speedster7t.

Поставки ускорителей в виде отдельных карт или в составе готовых систем компаний Dell или HP стартуют в начале второго квартала 2020 года.

Видимо, к этому времени с дефицитом 7-нм линий будет покончено. Сейчас спрос на 7-нм мощности находится в стадии ажиотажа.

Отдельно надо отметить, что компания Achronix долгое время была клиентом скромного, но многообещающего контрактного производства Intel. Увы, компания Intel перекормила «завтраками» всех, включая себя. Похоже, терпение Achronix иссякло, и производство новых ПЛИС она предпочла разместить за пределами заводов Intel. Вероятнее всего, этим будет заниматься компания TSMC, но мы пока не будем на этом настаивать.

Что касается ускорителей BittWare S7t-VG6, то ещё одной изюминкой платформы станет использование в качестве основной бортовой памяти память типа GDDR6 объёмом до 8 Гбайт. Суммарная пропускная способность подсистемы памяти в составе ускорителя BittWare S7t-VG6 будет достигать 4 Тбайт/с.

По словам разработчиков, это разумная по цене альтернатива памяти HBM. Почти не уступая ей по скорости доступа, память GDDR6 окажется ощутимо дешевле и удержит стоимость ускорителей BittWare на приемлемом уровне.

Кроме памяти GDDR6 на плате ускорителя можно обнаружить банк памяти DDR4-2666 с поддержкой ECC и три порта Ethernet: один 400 GbE и два 100 GbE. В комплекте с ускорителями поставляются инструменты для разработки приложений, драйвера и примеры, включая приложения для диагностики ускорителя.

Блок-схема ускорителя BittWare S7t-VG6

Блок-схема ускорителя BittWare S7t-VG6

О стоимости решений не сообщается. Поставки ускорителей BittWare S7t-VG6, повторим, стартуют в начале второго квартала будущего года.

Постоянный URL: http://servernews.ru/996543
24.10.2019 [14:39], Геннадий Детинич

BrainChip получила патент, приближающий эру периферийных ИИ

Австралийская компания BrainChip интересна разработкой нейроморфной SoC Akida с впечатляющими энергоэффективным характеристиками и, что важно, не в ущерб производительности.

Подобная заявка покрывает сферу периферийных решений с ИИ, когда вопрос с питанием и производительностью стоит не просто остро, а во главе угла.

Но компания создаёт не только платформу. Он также разрабатывает основополагающую технологию для нейроморфных вычислений с использованием ускорителей так называемых спайковых нейронных сетей.

Патенты BrainChip, например, в своих исследованиях используют такие компании как IBM, Qualcomm, Samsung и Hewlett Packard. Действующий патентный пул BrainChip весьма скромный ― 11 патентов, часть из которых всё ещё находится в разработке. Но наследие компании продолжает расти.

Как докладывает HPC Wire, BrainChip получила патент США за номером 10410117, который относится к динамической работе нейронной сети в составе ИИ-ускорителя. Это могут быть блоки в составе процессоров и ускорителей сторонних компаний, но BrainChip, безусловно, разработала эту технологию, в первую очередь, под себя.

Кстати, совсем скоро мы можем услышать о воплощении SoC Akida в кремнии. Во всяком случае, компания обещала начать производство решений в третьем квартале 2019 года.

Что касается нового патента BrainChip, то он описывает технологию, когда [весовые] значения генерируются и сохраняются в синаптических регистрах SoC, где используются для создания модели обучения. Сами модели хранятся в устройстве на базе SoC в виде библиотек и могут быть использованы для обучения другого устройства. Грубо говоря, одна камера наблюдения может научиться распознавать определённого человека и обучить этому всю сеть аналогичных камер.

На основе представленной технологии разработчики смогут создавать компактные ИИ-платформы для помощи водителям, для автопилотов, компьютерного зрения в целом, для систем дополненной и виртуальной реальности, для анализа звуков и речи, промышленного IoT и многого другого, о чём мы пока даже не смеем мечтать.

Постоянный URL: http://servernews.ru/996165
24.10.2019 [13:40], Сергей Карасёв

Orange Pi AI Stick Lite: компактный ИИ-ускоритель за $20

Для заказа доступно устройство Orange Pi AI Stick Lite, предназначенное для ускорения выполнения различных операций, связанных с искусственным интеллектом (ИИ).

Новинка выполнена в виде компактного брелока с коннектором USB. Габариты составляют всего 66,5 × 20,5 × 10,8 мм.

Основой служит процессор Gyrfalcon SPR2801S Lightspeeur с движком Matrix Processing Engine (MPE). Заявленное пиковое быстродействие составляет 5,6 TOPS (триллионов операций в секунду) при частоте 100 МГц.

Устройство оснащено флеш-памятью eMMC 4.5, но её размер не уточняется. Зато называются скоростные показатели: 68 Мбайт/с при чтении и 84,69 Мбайт/с при записи.

Говорится о поддержке интерфейса USB 3.0. Заявленный диапазон рабочих температур простирается от 0 до 40 градусов Цельсия.

Упомянута совместимость с программными библиотеками Tensorflow, Caffe и PyTorch. Приобрести ИИ-ускоритель Orange Pi AI Stick Lite можно за 20 долларов США

Постоянный URL: http://servernews.ru/996166
27.09.2019 [09:36], Владимир Мироненко

LEGO для ускорителей: Inspur представила референсную OCP-систему для модулей OAM

Компания Inspur анонсировала 26 сентября на саммите OCP Regional Summit в Амстердаме новую референсую платформу с UBB-платой (Universal Baseboard) для ускорителей в форм-факторе Open Accelerator Module (OAM). 

OAM был представлен Facebook в марте этого года. Он очень похож на слегка увеличенный (102 × 165 мм) модуль NVIDIA SXM2: «плиточка» с группами контактов на дне и радиатором на верхней крышке. 

Ключевые спецификации модуля OAM:

  • Линии питания 12 В (до 350 Вт) и 48 В (до 700 Вт )
  • Поддержка модулем одной или нескольких ASIC
  • Хост-подключение: 1 или 2 PCI-E x16
  • Межмодульное соединение: до 7 x16 или x20
  • Поддержка систем как воздушного, так жидкостного охлаждения
  • Объединение до 8 модулей в одной системе

OAM, в отличие от классических карт PCI-E, позволяет повысить плотнсть размещения ускорителей в системе без ущерба их охлаждению, а также увеличить скорость обмена данными между модулями, благодаря легко настраиваемой топологии соединений между ними. В числе поддержавших проект OCP Accelerator Module такие компании, как Intel, AMD, NVIDIA, Google,Microsoft, Baidu и Huawei. 

Inspur приступил к разработке референс-системы для ускорителей OAM в связи растущими требованиями, предъявляемыми к приложениям ИИ и необходимостью обеспечения взаимодействия между несколькими модулями на основе ASIC или GPU.

 

Данная платформа представляет собой 21" шасси стандарта Open Rack V2 с BBU для восьми модулей OAM. Плата BBU снабжена восемью коннекторами QSFP-DD для прямого подключения к другим BBU. 

Система Inspur OAM позволяет создавать кластеры из 16, 32, 64 и 128 модулей OAM и имеет гибкую архитектуру для поддержки инфраструктур с несколькими хостами. По требованию заказчика Inspur также может поставлять 19-дюймовые системы OAM. 

Одной из первых преимущества новинки для задач, связанных с ИИ и машинным обучением, оценила китайская Baidu, продемонстрировавшая собственное серверное решение X-Man 4.0 на базе платформы Inspur и восьми ускорителей.

Постоянный URL: http://servernews.ru/994713
04.09.2019 [17:30], Андрей Созинов

IFA 2019: NVIDIA представила мобильную Quadro RTX 6000 — самую мощную профессиональную видеокарту для ноутбуков

Компания NVIDIA представила новый ускоритель серии Quadro RTX – мобильную версию Quadro RTX 6000. Новинка является, пожалуй, самой производительной профессиональной видеокартой в мобильном сегменте.

К сожалению, компания NVIDIA не стала раскрывать полный список характеристик новинки. Известно лишь, что мобильная Quadro RTX 6000 обладает 24 Гбайт видеопамяти GDDR6.

Столько же имеет и настольная версия данной видеокарты, которая также обладает 4608 ядрами CUDA, 576 тензорными ядрами и 72 RT-ядрами. 

Скорее всего, мобильная RTX 6000 будет отличаться лишь более низкими таковыми частотами и сохранит конфигурацию ядер. Однако наверняка это будет известно несколько позже.

Также NVIDIA представила эталонную систему с новой профессиональной видеокартой, которая называется Ace Reference Design.

Эта мобильная рабочая станция обладает продвинутой системой охлаждения с ультратонкими титановыми испарительными камерами, поддерживает NVIDIA Optimus, комплектуется тонким и компактным блоком питания мощностью 300 Вт, а также профессиональным дисплеем с разрешением 4K, частотой 120 Гц, и 100 % охватом цветового пространства Adobe RGB.

На основе данной эталонной системы был создан ASUS ProArt StudioBook One, с которым мы уже подробно познакомились сегодня в рамках IFA 2019. Кроме того, сертификацию RTX Studio теперь имеют ещё 12 устройств. Среди них, например, ноутбуки Acer ConceptD 7 Pro и ConceptD 9 Pro, также продемонстрированные на IFA 2019. 

NVIDIA заявляет, что мобильная версия Quadro RTX 6000 устраняет существенный разрыв в производительности, который в настоящее время существует между мобильной Quadro RTX 5000 и настольной Quadro RTX 6000. Отставание должно составить примерно 10 % при обработке графики, редактировании видео, рендеринге и в задачах, связанных с Искусственным интеллектом. 

NVIDIA также упоминает о поддержке трассировки лучей в реальном времени в более чем 40 профессиональных приложениях, включая Adobe Photoshop Lightroom, Autodesk Arnold, Blender, Renderman и другие.

Постоянный URL: http://servernews.ru/991999
17.06.2019 [11:14], Сергей Карасёв

QNAP Mustang: акселераторы для систем искусственного интеллекта

Компания QNAP Systems анонсировала акселераторы серии Mustang, рассчитанные на применение в системах, использующих алгоритмы искусственного интеллекта и машинного обучения.

В семейство вошли два ускорителя — Mustang V100 и Mustang F100. Изделие Mustang V100 объединяет восемь процессоров Intel Movidius Myriad X MA2485. Решение подходит для систем машинного зрения. Акселератор выполнен в виде карты расширения с интерфейсом PCI Express x4. Габариты составляют 169,54 × 80,05 × 23,16 мм.

Ускоритель Mustang F100, в свою очередь, использует перепрограммируемую вентильную матрицу (FPGA) Intel Arria 10 GX1150. В оснащение входят 8 Гбайт памяти DDR4. Для установки акселератора требуется слот PCI Express x8. Размеры — 169,5 × 68,7 × 33,7 мм.

Акселераторы могут использоваться в серверах, настольных компьютерах, рабочих станциях, а также в сетевых хранилищах данных (NAS), допускающих установку карт расширения.

Говорится о совместимости с программными платформами Ubuntu 16.04.3 LTS, CentOS 7.4, Windows 10 и QTS. Информации об ориентировочной цене на данный момент, к сожалению, нет. 

Постоянный URL: http://servernews.ru/989282
13.06.2019 [18:27], Сергей Карасёв

Gyrfalcon 2803 Plai Plug: ИИ-акселератор в виде USB-брелока

Компания Gyrfalcon Technology анонсировала компактное устройство 2803 Plai Plug, призванное повысить производительность компьютеров при выполнении операций, связанных с искусственным интеллектом (ИИ).

Новинка представляет собой ИИ-акселератор, выполненный в виде USB-брелока. Поддерживается интерфейс USB 3.0, обеспечивающий пропускную способность до 5 Гбит/с.

В составе решения применён чип Gyrfalcon Lightspeeur 2803S. Заявлено быстродействие в 16,8 триллиона операций в секунду (TOPS) при энергопотреблении 700 мВт. Таким образом, производительность в расчёте на 1 Вт затрачиваемой энергии достигает 24 TOPS. Отмечается, что устройство Gyrfalcon 2803 Plai Plug может использоваться при решении таких задач, как распознавание изображений, обнаружение и отслеживание перемещения объектов, обработка естественной речи, визуальная аналитика, распознавание лиц, бизнес-аналитика и пр. 

SDK поддерживает фреймворки TensorFlowe, Caffe, ResNet, MobileNet, VGG CNN. Правда, компания теперь требует от потенциальных покупателей портфолио ИИ-проектов и примерные планы по использованию новинки и оставляет за собой право отказать в доступе к SDK и документации. Приобрести новинку можно будет по ориентировочной цене 70 долларов США. Конкурирующий продукт Intel Neural Compute Stick 2 (NCS 2) с VPU-процессорами Myriad X стоит $100.

Постоянный URL: http://servernews.ru/989148
10.04.2019 [10:42], Сергей Карасёв

Qualcomm представила ускоритель искусственного интеллекта Cloud AI 100

Компания Qualcomm Technologies анонсировала ускоритель искусственного интеллекта Cloud AI 100, предназначенный для использования в составе облачных платформ.

Технических подробностей о новинке пока не слишком много. Отмечается лишь, что изделие разработано с чистого листа, а при изготовлении применяется 7-нанометровая технология.

Qualcomm заявляет, что акселератор обеспечивает более чем десятикратный прирост производительности в расчёте на один ватт затрачиваемой энергии по сравнению с используемыми сегодня решениями для ускорения выполнения операций, связанных с искусственным интеллектом.

Qualcomm Cloud AI 100 может применяться при решении задач, связанных с расширенной реальностью (Extended Reality), обработкой естественной речи, компьютерным зрением, выполнением переводов с одного языка на другой в режиме реального времени и пр.

Говорится о поддержке программных библиотек PyTorch, Glow, TensorFlow, Keras и ONNX.

Пробные поставки ускорителя Qualcomm Cloud AI 100 планируется начать во второй половине текущего года. О сроках коммерческого использования решения ничего не сообщается. 

Постоянный URL: http://servernews.ru/985614
12.03.2019 [12:55], Геннадий Детинич

Intel на тропе интерфейсных войн: предложены спецификации Compute Express Link 1.0

В последние годы вычислительные платформы взяли курс на многокомпонентность. Прежде всего, это функционирование в одной системе разнородных (гетерогенных) процессорных архитектур и разного рода специализированных ускорителей на FPGA, GPU или ASIC. Сразу же оказалось, что между процессором (хостом) и ускорителями возникают узкие места для перекачки больших массивов данных. Это особенно заметно, когда ускорители обладают значительными объёмами кеширующей или другой бортовой памятью.

Проблему могли и могут решить интерфейсы и протоколы, которые обеспечили бы согласованность обращения к памяти и кешам процессора общего назначения и ускорителей (через общее адресное пространство и другое). И такие интерфейсы стали появляться. Это NVIDIA NVLink, GenZ и CCIX, не считая некоторых проприетарных разработок AMD и ARM. Часть из этих стандартов/межсоединенний открыты, часть нет. Сегодня к таким интерфейсам добавился ещё один, созданный в недрах компании Intel, но декларируемый как открытый и свободный от лицензионных отчислений.

Компания Intel сообщила, что девять компаний, включая её, создали консорциум Compute Express Link (CXL) и спецификации CXL версии 1.0. Кроме Intel основателями консорциума стали компании Alibaba, Cisco, Dell EMC, Facebook, Google, HPE, Huawei и Microsoft. Компании AMD, Xilinx, IBM и ARM не вошли в консорциум CXL. Все они продвигают фактически конкурента стандарту CXL ― стандарт CCIX. Как и CCIX, спецификации CXL опираются на физический интерфейс и протокол PCI Express. Правда, CCIX использует интерфейс PCI Express 4.0, а CXL ― PCI Express 5.0. Это, кстати, отодвигает реализацию интерфейса CXL на 2021 год, что даёт дорогу CCIX. Зато период популярности PCIe 4.0 ожидается очень коротким, после чего на сцену надолго выйдет интерфейс PCIe 5.0 и новоявленный Compute Express Link. Тем не менее, стандарты CCIX и CXL, очевидно, ждёт прямое столкновение и совсем непонятно, кто из них в итоге станет доминирующим.

Консорциум CXL и Intel не раскрывают деталей спецификаций Compute Express Link. Утверждается, что стандарт CXL обеспечит минимальные задержки при обмене данными хоста с ускорителями и станет одним из самых скоростных интерфейсов для подобного обмена. Поскольку протокол CXL будет работать на типичном интерфейсе PCI Express 5.0, реализация поддержки Compute Express Link будет стоить минимальных денег. Участники консорциума вообще будут освобождены от уплат лицензионных отчислений. В компании Intel ожидают, что к консорциуму CXL присоединятся другие разработчики процессоров и ускорителей и вместе они смогут разработать новую версию спецификации ― CXL 2.0.

Кстати, стандарт CXL активно поддержал консорциум GenZ. Сообщается, что GenZ и CXL будут дополнять друг друга, а не перекрывать возможности одного или другого протокола. Это означает, что с CXL могут согласовывать свои разработки компании AMD и ARM. Это даёт надежду, что история с «лебедем, раком и щукой» останется басней, а не очередной практикой для индустрии.

Постоянный URL: http://servernews.ru/984083
Система Orphus