Материалы по тегу: инференс

06.11.2020 [20:34], Алексей Степин

SimpleMachines анонсировала универсальный ИИ-ускоритель Mozart

Молодой стартап SimpleMachines представил своё видение ИИ-сопроцессора, анонсировав 16-нм чип под кодовым названием Mozart. Главным его достоинством разработчики считают универсальность.

В разработке ускорителей существует два основных подхода: выбросить из чипа «всё лишнее», сосредоточившись на как можно более быстром выполнении узкого круга задач, либо напротив, сделать процессор достаточно универсальным, но обычно ценой пиковой производительности. Тензорный сопроцессор Groq можно отнести к первой категории решений. Процессор Mozart, по мнению SimpleMachines, сочетает в себе универсальность и производительность, но всё же его можно отнести ко второму типу решений.

Заявка на универсальность выглядит достаточно серьёзно, благо опыт у разработчиков SimpleMachines есть — в состав стартапа входят бывшие исследователи и разработчики из Qualcomm, Intel и Sun Microsystems. К сожалению, данных о внутренней архитектуре Mozart пока немного. Известно лишь, что она достаточно сложна, и чип имеет собственный банк быстрой памяти HBM2. В производстве используется 16-нм техпроцесс TSMC, образцы в виде PCIe-ускорителя уже существуют «в металле», а сам чип имеет ревизию A0.

Универсальность в Mozart достигается за счет продвинутой программной части. Компилятор, созданный SimpleMachines, базируется на концепции композитных вычислений (Composable Computing) и легко интегрируется с существующими ИИ-фреймворками вроде TensorFlow. Но самое интересное то, что речь, похоже, идёт о чипе, чем-то похожем на программируемые логические матрицы (FPGA), поскольку говорится не просто о трансляции ПО, но и о некоей «реконфигурации и оптимизации аппаратной части на лету».

Ведущий разработчик SimpleMachines, Грег Райт (Greg Wright) говорит о поддержке Mozart очень крупных моделей данных и о способности выполнять до 64 различных ИИ-моделей одновременно. В планах компании он указывает разработку к концу 2021 года нового поколения процессоров такого типа на базе 7-нм техпроцесса. Ожидается, что второе поколение Mozart будет в 20 раз производительнее первого.

Новый сопроцессор благодаря своей универсальности может использоваться в самом широком спектре задач искусственного интеллекта и машинного обучения, включая такие сферы, как распознавание и классификация изображений, машинный перевод, системы рекомендаций, сетевая безопасность, обработка графики и даже секвенирование генетических последовательностей.

В качестве основных клиентов для своей платформы SimpleMachines видит крупные ЦОД, компании, связанные с обеспечением сетевой безопасности, а также страховой и финансовый секторы. Платформа будет доступна как в виде физических ускорителей с интерфейсом PCIe, так и в виде облачной услуги Symphony Cloud Service в Azure, Google Cloud и AWS. Рынок ИИ-сопроцессоров быстро растёт и ожидается, что к 2025 году его объём может достигнуть $91 млрд, но насколько хорошо проявит себя на этом рынке концепция, продвигаемая SimpleMachines, покажет время.

Постоянный URL: http://servernews.ru/1024778
30.10.2020 [16:46], Сергей Карасёв

ИИ-ускорители Flex Logix InferX X1 готовы побороться с NVIDIA Jetson Xavier NX и Tesla T4

Компания Flex Logix анонсировала специализированные ускорители искусственного интеллекта (ИИ), предназначенные для исполнения (инференс) нейронных сетей. В основу изделий положен фирменный чип InferX X1, который, как утверждается, по ряду характеристик превосходит изделия NVIDIA Jetson Xavier NX и Tesla T4.

Решение InferX X1 имеет размеры 21 × 21 мм. В основу положены реконфигурируемые тензорные ядра nnMAX, оптимизированные под периферийные ИИ-вычисления (AI Edge). Рабочая частота в зависимости от модификации варьируется от 533 до 933 МГц. Изделие может работать с оперативной памятью LPDDR4x. Чип содержит 13 Мбайт памяти SRAM. Кроме того, упомянута поддержка интерфейса PCIe Gen 3/4.

Чип InferX X1 стал «сердцем» трёх ускорителей. В частности, представлены карты расширения InferX X1P1 и X1P4 с интерфейсом PCIe х4 и PCIe х8 соответственно. Первая содержит один блок InferX X1, вторая — четыре. Для обоих ускорителей предусмотрено низкопрофильное исполнение. Кроме того, дебютировал акселератор InferX X1M в видем модуля М.2 2280 с интерфейсом PCIe х4.

Цена новинок в зависимости от модификации и рабочей частоты составит от 399 до 999 долларов США. В ближайшее время начнутся пробные поставки, а серийное производство намечено на следующий год.

Постоянный URL: http://servernews.ru/1024237
18.09.2020 [15:55], Алексей Степин

ИИ-ускоритель Qualcomm Cloud AI 100 обещает быть быстрее и экономичнее NVIDIA T4

Ускорители работы с нейросетями делятся, грубо говоря, на две категории: для обучения и для исполнения (инференса). Именно для последнего случая важна не столько «чистая» производительность, сколько сочетание производительности с экономичностью, так как работают такие устройства зачастую в стеснённых с точки зрения питания условиях. Компания Qualcomm предлагает новые ускорители Cloud AI 100, сочетающие оба параметра.

Сам нейропроцессор Cloud AI 100 был впервые анонсирован ещё весной прошлого года, и Qualcomm объявила, что этот чип разработан с нуля и обеспечивает вдесятеро более высокий уровень производительности в пересчёте на ватт, в сравнении с существовавшими на тот момент решениями. Начало поставок было запланировано на вторую половину 2019 года, но как мы видим, по-настоящему ускорители на базе данного чипа на рынке появились только сейчас, причём речь идёт о достаточно ограниченных, «пробных» объёмах поставок.

В отличие от графических процессоров и ПЛИС-акселераторов, которые часто применяются при обучении нейросетей и, будучи универсальными, потребляют при этом серьёзные объёмы энергии, инференс-чипы обычно представляют собой специализированные ASIC. Таковы, например, Google TPU Edge, к этому же классу относится и Cloud AI 100. Узкая специализация позволяет сконцентрироваться на достижении максимальной производительности в определённых задачах, и Cloud AI 100 более чем в 50 раз превосходит блок инференс-процессора, входящий в состав популярной SoC Qualcomm Snapdragon 855.

На приводимых Qualcomm слайдах архитектура Cloud AI 100 выглядит достаточно простой: чип представляет собой набор специализированных интеллектуальных блоков (IP, до 16 юнитов в зависимости от модели), дополненный контроллерами LPDDR (4 канала, до 32 Гбайт, 134 Гбайт/с), PCI Express (до 8 линий 4.0), а также управляющим модулем. Имеется некоторый объём быстрой набортной SRAM (до 144 Мбайт). С точки зрения поддерживаемых форматов вычислений всё достаточно универсально: реализованы INT8, INT16, FP16 и FP32. Правда, bfloat16 не «доложили».

Об эффективности новинки говорят приведённые самой Qualcomm данные: если за базовый уровень принять систему на базе процессоров Intel Cascade Lake с потреблением 440 Ватт, то Qualcomm Cloud AI 100 в тесте ResNet-50 быстрее на два порядка при потреблении всего 20 Ватт. Это, разумеется, не предел: на рынок новый инференс-ускоритель может поставляться в трёх различных вариантах, два из которых компактные, форм-факторов M.2 и M.2e с теплопакетами 25 и 15 Ватт соответственно. Даже в этих вариантах производительность составляет 200 и около 500 Топс (триллионов операций в секунду), а существует и 75-Ватт PCIe-плата формата HHHL производительностью 400 Топс; во всех случаях речь идёт о режиме INT8.

Данные для NVIDIA Tesla T4 и P4 приведены для сравнения

Данные для NVIDIA Tesla T4 и P4 приведены для сравнения

Основными конкурентами Cloud AI 100 можно назвать Intel/Habana Gaia и NVIDIA Tesla T4. Оба этих процессора также предназначены для инференс-систем, они гибче архитектурно — особенно T4, который, в сущности, базируется на архитектуре Turing —, однако за это приходится платить как ценой, так и повышенным энергопотреблением — это 100 и 70 Ватт, соответственно. Пока речь идёт о распознавании изображений с помощью популярной сети ResNet-50, решение Qualcomm выглядит великолепно, оно на голову выше основных соперников. Однако в иных случаях всё может оказаться не столь однозначно.

Новые ускорители Qualcomm будут доступны в разных форм-факторах

Новые ускорители Qualcomm будут доступны в разных форм-факторах

Как T4, так и Gaia, а также некоторые другие решения, вроде Groq TSP, за счёт своей гибкости могут оказаться более подходящим выбором за пределами ResNet в частности и INT8 вообще. Если верить Qualcomm, то компания в настоящее время проводит углублённое тестирование Cloud AI 100 и на других сценариях в MLPerf, но в открытом доступе результатов пока нет. Разработчики сосредоточены на удовлетворении конкретных потребностей заказчиков. Также заявлено о том, что высокая производительность на крупных наборах данных может быть достигнута путём масштабирования — за счёт использования в системе нескольких ускорителей Cloud AI 100.

В настоящее время для заказа доступен комплект разработчика на базе Cloud Edge AI 100. Основная его цель заключается в создании и отработке периферийных ИИ-устройств. Система достаточно мощная, она включает в себя процессор Snapdragon 865, 5G-модем Snapdragon X55 и ИИ-сопроцессор Cloud AI 100. Выполнено устройство в металлическом защищённом корпусе с четырьмя внешними антеннами. Начало крупномасштабных коммерческих поставок намечено на первую половину следующего года.

Постоянный URL: http://servernews.ru/1020978
09.01.2020 [17:34], Алексей Степин

Тензорный ИИ-процессор Groq выбился в лидеры ResNet-50 v2

Бум машинного обучения продолжается. Мы уже рассказывали читателям о тензорном процессоре Groq с производительностью порядка 1 Петаопс.

По мнению разработчиков, их детище имеет самую эффективную архитектуру на сегодняшнем рынке. Для таких заявлений есть основания — Groq удалось занять первое место при исполнении ResNet-50 v2.

ResNet-50 — сложная свёрточная нейронная сеть, обученная при помощи свыше миллиона изображений, взятых из базы данных ImageNet. Глубина сети составляет 50 слоёв, она способна классифицировать объекты по 1000 различных категорий, точность распознавания составляет около 93%.

Ускоритель на базе Groq смог развить пиковую производительность на уровне 21700 распознаваний в секунду, что превосходит показатели любых других коммерческих нейроархитектур. Он оказался более чем в два раза быстрее, нежели решения на базе графических процессоров.

Groq уступил лишь специализированному закрытому ASIC Alibaba HanGuang

Groq уступил лишь специализированному закрытому ASIC Alibaba HanGuang, который нельзя купить

Следует отметить, что производительность Groq была высокой и при малом размере серии изображений. Даже при распознавании единственной картинки за раз чип демонстрировал практически пиковую скорость, а задержки не превышали 0,05 миллисекунды. 

Если на длинных сериях он превосходил GPU примерно в 2,5 раза, то на коротких отрыв увеличился до 17 раз, что является очень впечатляющим показателем. Особенно с учётом скромной базоврй тактовой частоты Groq, которая составляет всего 900 МГц. 

Groq состоит практически только из вычислительных ядер

Groq состоит практически только из вычислительных ядер

Напоминаем, что архитектура Groq довольно уникальна: разработчики этого процессора решили отказаться от многих традиционных блоков, таких как кеши, планировщики заданий и т.п., что позволило пустить весь сэкономленный транзисторный лимит на вычислительные ядра.

Задачи по предварительной обработке, такие как параллелизация, были возложены на компилятор. В итоге то, что в своё время погубило IA64, стало решающим фактором победы для Groq. Массовые поставки новинки намечены её создателями на середину текущего года.

Постоянный URL: http://servernews.ru/1001102
Система Orphus