Материалы по тегу: npu

20.11.2020 [18:16], Сергей Карасёв

Модули SolidRun i.MX 8M Plus позволяют решать задачи в области машинного обучения

Компания SolidRun анонсировала вычислительные модули семейства i.MX 8M Plus, построенные на процессоре NXP i.MX 8M Plus. Представленные изделия могут применяться в сферах промышленного Интернета вещей, машинного обучения, компьютерного зрения и пр.

Новинки выполнены в виде небольших плат с размерами 47 × 30 мм. Заказчики смогут выбирать между модификациями с двумя и четырьмя вычислительными ядрами ARM Cortex-A53 в коммерческом и промышленном исполнениях: в первом случае тактовая частота достигает 1,8 ГГц, во втором — 1,6 ГГц.

Изделия содержат нейропроцессорный узел NPU (Neural Processing Unit) с вычислительной мощностью до 2,3 триллиона операций в секунду (TOPS). Кроме того, имеется ядро общего назначения ARM Cortex-M7 с частотой 800 МГц. В оснащение входит графический блок Vivante GC7000UL.

Возможно использование до 8 Гбайт оперативной памяти LPDDR4-4000, твердотельных накопителей с интерфейсом PCIe и флеш-модулей eMMC. Решения позволяют задействовать два сетевых порта Gigabit Ethernet. Опционально может обеспечиваться поддержка беспроводной связи Wi-Fi 802.11ac/a/b/g/n и Bluetooth 5.0.

Для вычислительных модулей будут доступны платы-носители HummingBoard Mate, HummingBoard Pulse и HummingBoard Ripple с различным набором интерфейсов. Цена SolidRun i.MX 8M Plus начинается с 75 долларов США, в комплекте с интерфейсной платой — со 135 долларов.

Постоянный URL: http://servernews.ru/1025921
24.10.2019 [13:40], Сергей Карасёв

Orange Pi AI Stick Lite: компактный ИИ-ускоритель за $20

Для заказа доступно устройство Orange Pi AI Stick Lite, предназначенное для ускорения выполнения различных операций, связанных с искусственным интеллектом (ИИ).

Новинка выполнена в виде компактного брелока с коннектором USB. Габариты составляют всего 66,5 × 20,5 × 10,8 мм.

Основой служит процессор Gyrfalcon SPR2801S Lightspeeur с движком Matrix Processing Engine (MPE). Заявленное пиковое быстродействие составляет 5,6 TOPS (триллионов операций в секунду) при частоте 100 МГц.

Устройство оснащено флеш-памятью eMMC 4.5, но её размер не уточняется. Зато называются скоростные показатели: 68 Мбайт/с при чтении и 84,69 Мбайт/с при записи.

Говорится о поддержке интерфейса USB 3.0. Заявленный диапазон рабочих температур простирается от 0 до 40 градусов Цельсия.

Упомянута совместимость с программными библиотеками Tensorflow, Caffe и PyTorch. Приобрести ИИ-ускоритель Orange Pi AI Stick Lite можно за 20 долларов США

Постоянный URL: http://servernews.ru/996166
21.10.2019 [16:13], Сергей Карасёв

Карты AAEON M.2 и mPCIe для «умного» IoT используют NPU Kneron KL520

Компания AAEON, принадлежащая ASUS, анонсировала специализированные карты, призванные ускорить выполнение операций, связанных с искусственным интеллектом.

Изделия ориентированы, прежде всего, на сферу AIoT: сочетание средств искусственного интеллекта (AI) и Интернета вещей (IoT). Новинки могут применяться в таких областях, как распознавание жестов и объектов, контроль состояния водителя, анализ лиц и пр.

Карты будут предлагаться в виде модулей M.2 и mini-PCIe (mPCIe). Основой служит NPU Kneron KL520, который может похвастаться небольшим потреблением энергии. Заявленный диапазон рабочих температур простирается от 0 до 70 градусов Цельсия. Энергопотребление платы варьируется от 0,5 до 0,9 Вт.

Анонсированы три карты — это модели M2AI-2280-520 (M.2 B-Key 2280), M2AI-2242-520 (M.2 2242) и Mini-AI-520 (mini-PCIe). Информации об ориентировочной цене изделий пока нет. 

Постоянный URL: http://servernews.ru/995939
02.10.2019 [11:22], Геннадий Детинич

Один нейропроцессор Alibaba Hanguang 800 заменяет 10 GPU-ускорителей

Как мы сообщали около недели назад, компания Alibaba представила фирменный NPU Hanguang 800 для запуска нейросетей в составе облачных сервисов компании. Например, данные NPU могут обеспечить рекомендательные услуги для пользователей или анализ видео с камер наблюдения в реальном времени.

В продажу Hanguang 800 не поступят. Компания намерена использовать разработку в собственных ЦОД. С одной стороны, это программа по импортозамещению. С другой ― аналогов Hanguang 800 пока нет, в чём нас уверяет Alibaba.

Итак, 12-нм NPU Hanguang 800 ― это самый большой из разработанных Alibaba чипов с 17 млрд транзисторов. Точнее, процессор разработан подразделением T-Head этой интернет-компании (ране ― Pingtouge Semi). В основе разработки лежит архитектура и набор команд RISC-V с открытым кодом. Подобное обстоятельство, как уверены в Alibaba, поможет быстрому распространению интереса к платформе со стороны независимых разработчиков.

Нейропроцессор Hanguang 800 входит в семейство производительных ИИ-чипов Xuantie (Black Steel). Название платформы для ускорителя ― Wujian (Уцзян).

Платформа представляет собой плату с интерфейсами и контроллерами ввода/вывода, бортовой памятью и набором необходимых кодеков. Вместе с аппаратной частью поставляется полный пакет программного обеспечения от драйверов и прошивки до операционной системы, библиотек и примеров. Бери и дерзай.

Программная поддержка представляется Alibaba тем козырем, которого нет в рукаве у чисто «железячных» разработчиков. Кстати, Hanguang 800 спроектирован менее чем за год, что впечатляет.

Согласно внутренним тестам компании, инференс Hanguang 800 на стандартном тестовом наборе ResNet-50 способен обработать 78,5 тысяч изображений в секунду или 500 изображений в секунду на ватт. Это в 15 раз быстрее, чем в случае ускорителя NVIDIA T4 и в 46 раз быстрее NVIDIA P4. Даже если Alibaba преувеличила свои достижения, а независимых тестов у нас нет, результат всё равно впечатляет.

Если сравнивать возможности Hanguang 800 с компьютерной производительностью, то, по словам разработчиков, один NPU Hanguang 800 эквивалентен по результативности 10 «обычным» графическим процессорам. Эти решения, как мы отметили выше, компания будет использовать для собственных нужд, как и TPU в компании Google или AWS Inferentia в Amazon. У компании Alibaba это облачные сервисы Aliyun.

Постоянный URL: http://servernews.ru/994970
18.09.2017 [09:49], Алексей Степин

Cisco NPU: сетевой процессор с производительностью 400 Гбит/с

О проблемах и путях развития стандарта Ethernet мы совсем недавно рассказывали читателям. Как было упомянуто в заметке, одной из самых важных вех в процессе этого развития является создание сетевых процессоров с огромной агрегированной пропускной способностью. Об одном из таких процессоров мы поведаем сегодня. На конференции Hot Chips представитель компании Cisco Systems Джейме Маркевич (Jamie Markevitch) продемонстрировал безымянный, но уже поставляемый клиентам чип и рассказал о его особенностях. Это большая редкость — услышать подробности о корпоративных разработках такого уровня, исключением может послужить Mellanox и ещё пара компаний. К сожалению, самого интересного, а именно, снимков процессора для коммутаторов с пропускной способностью 6,5 Тбит/с показано не было, но интерес представляет и архитектура чипа, способного работать на скорости 400 Гбит/с.

Против ожидания, вся процессорная мощь NPU находится в правом кристалле

Против ожидания, вся процессорная мощь NPU находится в правом кристалле

Это не 16-нм ASIC под названием CloudScale, представленный Cisco в марте 2016 года, основанный на сигнальном стандарте 25G и применяемый в серии корневых коммутаторов Nexus 9500. Данная версия выпущена раньше и использует 22-нм техпроцесс, но, скорее всего, имеет схожую с CloudScale архитектуру. Данный NPU не является монолитным устройством с фиксированным количеством портов, он предназначен для построения модульных систем с несколькими такими сетевыми процессорами на борту, соединяемыми собственной шиной. Чип очень похож на начинку коммутаторов Nexus 9000, но в тех была использована ещё более старая 28-нм версия. Пока Intel рассуждает о гибридных процессорах, Cisco уже имеет решения с такой архитектурой в своём арсенале и выпускает их серийно. Описываемый кристалл состоит из 9,2 миллиардов транзисторов и имеет 672 процессорных ядра, каждое из которых способно выполнять до 4 потоков.

Общая архитектура и расположение функциональных блоков внутри NPU

Общая архитектура и расположение функциональных блоков внутри NPU

Объём памяти SRAM составляет внушительные 353 Мбайт. Это очень дорогая и быстрая память, в данном процессоре она играет роль кеша нулевого уровня, в котором хранятся как инструкции, так и данные для каждого потока (не ядра!). На каждый кластер из 16 ядер имеется и более привычный кеш L1. Каждое ядро имеет восьмистадийный неблокируемый конвейер, между потоками он переключается по алгоритму round-robin. Всего в чипе 42 16-ядерных кластера, они соединены с кешем инструкций L2, имеющим 4-уровневую ассоциативность. Он же служит межъядерной соединительной сетью, объединяющей все функциональные блоки процессора воедино. Внутренняя сеть работает на частоте 1 ГГц и обладает совокупной пропускной способностью более 9 Тбит/с. Имеется 276 интерфейсов типа SERDES для общения с внешним миром. Часть транзисторного бюджета, разумеется, задействована для реализации всяческих ускорителей, буферов и контроллеров интерфейсов.

NPU и его подсистемы памяти

NPU и его подсистемы памяти

Cisco не раскрывает деталей о том, какой набор инструкций используется в их сетевых процессорах. Это может быть что угодно, включая полностью уникальный набор, не похожий на существующие ARM, MIPS, POWER или x86. Ядра ориентированы на «работу до конца», это означает, что каждый поток, обрабатывающий пакет, отвечает за него в течение всего времени прохождения через NPU. Это исключает простаивание или «переброс пакетов» между ядрами. Различные типы пакетов требуют разных вычислений и имеют разные размеры, поэтому производительность процессорного массива в Cisco NPU непостоянна. Тем не менее, решение поддерживает традиционные пути программирования и может использовать языки C или ассемблер. Поскольку каждый пакет занимает свой поток, это означает одновременную обработку 2688 пакетов. Пакеты поступают из внешней памяти DRAM в массив SRAM, причём, ускорители могут обращаться к DRAM независимо от основного массива, который получает данные из SRAM.

Серия корневых коммутаторов Cisco Nexus 9000 использует описываемые в заметке NPU

Серия корневых коммутаторов Cisco Nexus 9000 использует описываемые в заметке NPU

Сетевой процессор Cisco, описанный в презентации, способен обрабатывать пакеты на скорости 800 Гбит/с, но более привычно говорить о 400 Гбит/с в полнодуплексном режиме. Интерфейс SERDES имеет совокупную пропускную способность порядка 6,5 Тбит/с. Большая часть линий используется для подключения DRAM и TCAM (Ternary Content Addressable Memory) — последняя являет собой некий гибрид SRAM и DRAM и обычно используется для хранения списков доступа (Access Control List, ACL). Большая часть функциональных блоков NPU работает на частоте 760 МГц или 1 ГГц, что на фоне современных ЦП общего назначения выглядит весьма скромно. Интерфейсы MAC поддерживают воплощение PHY практически любого типа со скоростями от 10 до 100 Гбит/с. В составе процессора имеется встроенный менеджер трафика, способный дирижировать 256 тысячами запросов за раз и выдерживать при этом нагрузку порядка половины триллиона объектов в секунду (в основном, пакетов).

В модели Nexus 9000 на снимке хорошо видны четыре NPU. Сверхмощное охлаждение не требуется

В модели Nexus 9000 на снимке хорошо видны четыре NPU. Сверхмощное охлаждение не требуется

Интегрированные блоки ускорителей предназначены для разгрузки процессора от обработки таких функций, как IPv4 и IPv6 prefix look ups, сжатия и хеширования диапазона IP-адресов, приоритизации пакетов и сбора статистики QoS. Внутри упаковки имеется также некоторое количество собственной памяти DRAM, и это хорошо видно на снимке процессора — причём, логика, против ожиданий, занимает меньший кристалл, а больший приходится именно на память. Подключается она с помощью 28 линий SERDES, работающих на скорости 12,5 Гбит/с, что вдвое медленнее продвигаемого сейчас стандарта 25, но совокупная производительность двух контроллеров памяти составляет порядка 37,5 Гбайт/с — не так уж мало, хотя современные ЦП умеют работать с памятью и быстрее. Интересно, что 22-нм техпроцесс используется не везде: с его применением произведён только сам процессор, а вот логика SERDES использует 28-нм, а DRAM и вовсе выпущена с применением 30-нм технологических норм. Приведённое описание даёт неплохое представление о возможностях NPU Cisco. Пусть это предыдущее поколение, но с учётом параметров чипа довольно легко представить, на что способны аналогичные процессоры нового поколения, выпущенные с использованием 16-нм техпроцесса.

Постоянный URL: http://servernews.ru/958639
Система Orphus