Материалы по тегу: mlperf

12.09.2022 [19:31], Алексей Степин

В бенчмарке MLPerf Inference v2.1 отметилось сразу несколько новичков, готовых потягаться с грандами ИИ-индустрии

Бенчмарк MLPerf, а вернее, его набор тестов Training, в основном является вотчиной NVIDIA с небольшими вкраплениями результатов ускорителей иных архитектур вроде Google TPU. Но MLPperf Inference более демократичен. В частности, в последнем раунде v2.1 отметилось сразу несколько новых систем и архитектур.

Опубликованы новые результаты были в двух категориях, Open и Closed, и в обоих случаях в списках замечены новинки. В частности, в «открытой» категории появились результаты процессора Alibaba Yitian 710, довольно высокие и без дополнительных ускорителей, что, впрочем, неудивительно — этот чип с архитектурой Armv9 располагает 128 ядрами с частотой до 3,2 ГГц и имеет поддержку всех современных форматов данных.

 Alibaba Yitian 710. Источник: Alibaba Cloud

Alibaba Yitian 710. Источник: Alibaba Cloud

В этой же категории дебютировали PCIe-ускорители Moffett AI S4, S10 и S30. В основе этих решений лежит архитектура Moffett Antoum, специально спроектированная для работы с «разреженными» (sparsity) моделями. S4, младшая модель серии, располагает 20 Гбайт памяти LPDDR4x, потребляет 70 Вт, но при этом развивает 943 Топс на вычислениях INT8 и 471 Тфлопс в режиме BF16 при коэффициенте sparsity, равном 32x. Старшие варианты, судя по всему, несут на борту по 2 и 3 процессора Moffett AI Antoum.

 Архитектура Moffett S4. Источник: Kisaco Research

Архитектура Moffett S4. Источник: Kisaco Research

Это выливается в очень неплохие результаты в ResNet50 даже для S4. Более мощные ускорители S10 и S30 демонстрируют пропорциональный прирост производительности, составляющий 2х и 3х соответственно. Впрочем, в графе точность (accuracy) в результатах есть некоторый разброс. Интересно, что Antoum содержит в своём составе аппаратные декодеры видео (64 потока 1080p@30) и JPEG-изображений (2320 к/c с разрешением 1920x1080), так что процессор действительно хорошо подходит для инференс-систем, где требуется быстрая обработка входящих изображений или видео.

 Moffett S4. Источник: Kisaco Research

Moffett S4. Источник: Kisaco Research

Из прочих архитектур отметились ускорители Qualcomm Cloud AI 100, но не всех категориях бенчмарка. А вот в категории Closed куда «многолюднее», хотя основную массу населения и составляют решения NVIDIA. Но, во-первых, компания продемонстрировала результаты H100, что выглядит весьма интересно в сравнении ускорителями A100 в различных вариациях, а также с менее мощными ускорителями A30 и A2.

 Ускорители Sapeon. Источник: Korea IT News

Ускорители Sapeon. Источник: Korea IT News

Во-вторых, в этой же категории появилась новинка — ускоритель Sapeon X220 от южнокорейской SK Telecom. Одно из его назначений — качественный апскейл видеоконтента с низким разрешением, например, из FullHD в 4K. Для ResNet-50 заявлена производительность 6700 к/с. Главное преимущество X220 перед современными GPU — энергоэффективность, и по этому параметру он в 3,5 раза опережает ускорители сопоставимого класса.

 Источник: SK Telecom

Источник: SK Telecom

Наконец, в Inference v2.1 можно увидеть результаты загадочного китайского соперника NVIDIA A100 — ускорителя серии BR100 от Biren Technology, о котором мы не столь давно рассказывали . Он действительно показал результаты, сопоставимые с NVIDIA A100. При этом речь идёт о PCIe-версии BR100, ограниченной теплопакетом 300 Вт, в то время как в варианте OAM c TDP 550 Вт результаты такого модуля могут оказаться выше даже в сравнении с A100 в исполнении SXM.

 Источник: Biren Technology

Источник: Biren Technology

Также следует отметить и результат двухпроцессорной системы на базе Intel Sapphire Rapids. Хотя речь и идёт о процессоре общего назначения, поддержка инференс-нагрузок позволила Sapphire Rapids бороться на равных или даже опережать NVIDIA A2. Таким образом, наблюдать за MLPerf явно стало интереснее. Пока этого нельзя сказать про раздел Training, но в разделе Inference уже имеется достаточно результатов для представляющих интерес сравнений и выводов.

Постоянный URL: http://servernews.ru/1074011
29.06.2022 [20:00], Алексей Степин

NVIDIA снова ставит рекорды в ИИ-бенчмарке MLPerf Training

Сегодня вышла очередная версия бенчмарка MLPerf Training для оценки производительности ИИ-ускорителей в различных сценариях, максимально приближённых к реальным. Всего в состав версии 2.0 входит 8 различных тестах в четырёх категориях.

NVDIA — давний и наиболее активный участник проекта MLPerf, именно результаты различных систем на базе ускорителей NVIDIA составляют 90% от всего объёма рейтинга. Также это единственный участник, стабильно принимающий участие во всех дисциплинах. В новой версии MLPerf 2.0 ускорители NVIDIA A100 вновь оказались единственными, охватившими все тесты.

 Последние результаты A100 в MLPerf 2.0. Источник: NVIDIA

Последние результаты A100 в MLPerf 2.0. Источник: NVIDIA

А суперкомпьютер Selene и вовсе продемонстрировал лидерство в шести дисциплинах MLPerf из восьми, уступив место лишь Intel Habana Gaudi 2 в тесте RN-50 и Google TPU v4 в тесте RetinaNet. Всего в «забеге» со стороны NVIDIA приняли участие 16 партнёров со своими платформами, в их число вошли такие известные компании, как ASUS, Baidu, CASIA, Dell Technologies, Fujitsu, GIGABYTE, H3C, HPE, Inspur, Lenovo, Nettrix и Supermicro. Большая часть из них запускала MLPerf 2.0 на системах, имеющих сертификацию самой NVIDIA.

 fds

A100 лидирует в шести тестах из восьми. Источник: NVIDIA

Опираясь на результаты тестов, NVIDIA говорит, что пока только она в состоянии предложить коммерческому клиенту законченную платформу, способную выполнять все стадии какого-либо ИИ-сценария: к примеру, от распознавания произнесённой фразы до поиска и классификации нужной для ответа информации, и наконец, озвучивания самого ответа.

Прогресс ИИ-ускорителей NVIDIA за 3.5 года. Источник: NViDIA

А использование унифицированной платформы вместо нескольких отдельных, закономерно снижает и стоимость владения, и сложность обслуживания и настройки. К тому же, такая платформа имеет задел на будущее, особенно с учётом того, что на смену A100 вскоре начнёт приходить новый флагман NVIDIA в лице H100.

Любопытные факты: за два года, прошедшие с первого участия A100 в тестировании, производительность удалось поднять в 6 раз за счёт оптимизаций программного стека, а за 3,5 года с момента начала участия NVIDIA в проекте MLPerf она выросла ещё больше, в целых 23 раза.

Постоянный URL: http://servernews.ru/1069131
07.04.2022 [00:20], Алексей Степин

NVIDIA поставила ряд рекордов в ИИ-тестах MLPerf Inference V2.0

Платформа Jetson AGX Orin была представлена в конце марта. Как считает NVIDIA, это лучшее компактное, экономичное, но при этом весьма высокопроизводительное решение для робототехники и автономных транспортных средств, использующих современные ИИ-решения. На это у компании есть основания.

Сердцем платформы является 7-нм чип (17 млрд транзисторов), включающий в себя 12 ядер Arm Cortex-A78AE, специально спроектированных для применения в задачах, требующих повышенной надёжности. GPU-часть представлена 2048 ядрами Ampere и 64 тензорными ядрами. В полной версии такой чип развивает 275 Топс на вычислениях INT8 при частоте 2,2 ГГц для CPU и 1,3 ГГц для GPU, но NVIDIA предлагает несколько решений на базе новой архитектуры.

 Изображения: NVIDIA

Изображения: NVIDIA

Старшая версии в пять раз быстрее и в два раза энергоэффективнее, нежели Jetson AGX Xavier — компания привела результаты тестирования AGX Orin в MLPerf Inference V2.0, где новая платформа без труда расправилась со своей предшественницей, а также не оставила практически ни единого шанса связке Qualcomm Snapdragon 865 и Cloud AI 100 (DM.2). Впрочем, старший серверный вариант ускорителя всё же оказался более энергоэффективным в сравнении с NVIDIA A100 в некоторых других тестах.

Дополнительно NVIDIA опубликовала результаты тестов ускорителя A30. Компания отдельно подчёркивает несколько моментов. Так, производительность A100 на платформах Arm и x86-64 оказалась практически идентичной — трёхлетние усилия по портированию ПО на Arm не прошли даром. Более того, оптимизация одного только ПО дала прирост до 50% за последний год. Заодно NVIDIA объявила, что теперь инференс-платформа Triton может работать только на CPU, не требуя обязательного наличия GPU.

Также NVIDIA совместно с Microsoft показала, что производительность A100 в инстансах Azure незначительно отличается от того, что можно получить при использовании bare-metal оборудования. Наконец, компания продемонстрировала эффективность работы Multi-Instance GPU (MIG) — при использовании всех семи инстансов производительность каждого составляет порядка 98% от той, которая доступна при использовании только одного инстанса.

К сожалению, сам набор MLPerf всё ещё во много ориентирован на аппаратные решения NVIDIA — в новой серии тестов очень мало результатов от других крупных игроков, хотя всего было принято более 3900 замеров, из которых 2200 включали также данные об энергопотреблении. Та же Qualcomm выступила далеко не во всех дисциплинах, а Google фактически отказалась от участия в этом раунде.

Постоянный URL: http://servernews.ru/1063490
17.11.2021 [19:00], Владимир Мироненко

Решения NVIDIA лидируют в ИИ-бенчмарках MLPerf HPC 1.0

Опубликованы результаты MLPerf HPC 1.0, набора отраслевых тестов для оценки производительности машинного обучения, впервые вышедшего в мае 2018 года. Новые бенчмарки MLPerf касаются вычислений, которые ускоряют и дополняют моделирование на суперкомпьютерах с помощью ИИ. Системы на базе решений NVIDIA победили в четырёх из пяти тестов MLPerf HPC 1.0.

По словам компании, последние достижения в области молекулярной динамики, астрономии и климатического моделирования стали возможными благодаря совместному использованию HPC и ИИ. Это тенденция способствует внедрению ИИ-систем экзафлопсного класса (в данном случае речь идёт о вычислениях пониженной точности) как в науке, так и в промышленности.

Тесты MLPerf поддерживаются MLCommons, отраслевой группой, включающей Alibaba, Google, Intel, Meta*, NVIDIA и т.д. Бенчмарки MLPerf HPC включают два вида тестов. В первом измеряется время, необходимое на тренировку модели (сильное масштабирование, strong scaling), во втором — общая пропускная способность системы, то есть сколько моделей получается натренировать за заданный промежуток времени.

В первом варианте тестов по сравнению с лучшими результатами в MLPerf 0.7 в прошлом году NVIDIA в 5 раз улучшила результаты в тесте CosmoFlow (обработка изображений с телескопов), а в DeepCam (детектирование ураганов и воздушных потоков) — почти в 7 раз. А суперкомпьютер Perlmutter лидирует в бенчмарке opencatalyst (отслеживание того, насколько хорошо предсказываются межмолекулярные взаимодействия) с использованием 2048 ускорителей NVIDIA A100.

В тестах второго типа NVIDIA лидирует в DeepCam — 16 узлов на задание и 256 одновременных заданий. Все тесты проводились на NVIDIA Selene, собственной системе NVIDIA и крупнейшем в мире промышленном суперкомпьютере. Для профилирования нагрузок использовались инструменты NVIDIA DALI (ускорение обработки данных) и CUDA Graphs (снижение задержки для небольших порций данных для эффективного масштабирования до 1024 и более ускорителей).

Также компания задействовала NVIDIA SHARP, ключевой компонент NVIDIA MagnumIO, для ускорения обмена данными и выгрузки данных в сеть коммутатора NVIDIA Quantum InfiniBand. Все эти инструменты не являются закрытыми. Всё ПО для проведения самих тестов доступно в репозитории MLPerf. NVIDIA также регулярно обновляет необходимые компоненты в своём каталоге NGC.

Всего в этом раунде MLPerf HPC семь из восьми участников использовали ускорители NVIDIA. Среди них есть немецкий суперкомпьютерный центр Jülich Supercomputing Centre, Швейцарский национальный вычислительный центр, а также Аргоннская национальная лаборатория и Национальная лаборатория им. Лоуренса, Национальный центр суперкомпьютерных приложений и Техасский центр перспективных вычислений в США. Компания отметила, что хорошие результаты в тестах — результат зрелости программно-аппаратной ИИ-платформы NVIDIA.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Постоянный URL: http://servernews.ru/1053925
01.07.2021 [02:02], Владимир Мироненко

В ИИ-бенчмарке MLPerf Training Google поставила абсолютный рекорд, но по общим результатам лидирует NVIDIA

Открытый инженерный консорциум MLCommons опубликовал новые результаты MLPerf Training v1.0, набора тестов для оценки производительности машинного обучения. MLPerf Training измеряет время, необходимое для обучения ИИ-моделей до заданного уровня качества работы в различных задачах, включая классификацию изображений, обнаружение объектов, NLP, рекомендации и обучение с подкреплением.

В последнем раунде MLPerf получил заявки от 13 организаций и опубликовал более 650 рецензированных результатов для систем машинного обучения, от малых периферийных устройств до мощных серверов. «В этом раунде были представлены новинки программного и аппаратного обеспечения от Dell, Fujitsu, Gigabyte, Google, Graphcore, Habana Labs, Inspur, Intel, Lenovo, Nettrix, NVIDIA, PCL & PKU и Supermicro», — сообщил MLCommons.

Бенчмарки MLPerf постоянно совершенствуются. MLCommons сообщил, что «по сравнению с последним раундом представления лучшие результаты тестов улучшились в 2,1 раза, что свидетельствует о существенном улучшении аппаратного, программного обеспечения и масштаба систем». Последний раунд включал в себя два новых теста — для измерения производительности преобразования речи в текст (Speech-to-Text with RNN-T) и обработки медицинских изображений (3D Medical Imaging with 3D U-Net). Полный набор тестов MLPerf Training включает BERT, DLRM, Mask R-CNN, ResNet-50 v1.5, SSD, RNN-T, 3d-UNet и MiniGO.

Подобно прошлым результатам MLPerf Training, заявки состоят из двух разделов: закрытого и открытого. Закрытые заявки используют одну и ту же эталонную модель, чтобы обеспечить равные условия для всех систем, а в открытом соперничестве разрешено использовать различные модели. Представленные материалы дополнительно классифицируются по доступности: коммерческие системы, предварительные версии и R&D-проекты.

Большая часть представленных систем по-прежнему полагалась на различные графические процессоры NVIDIA. Было протестировано 82 конфигурации в закрытом разделе. NVIDIA, как обычно, сделала подавляющее большинство заявок либо напрямую, либо через OEM-партнеров. На конфигурации на базе NVIDIA пришлось около 70 % заявок.

«Только NVIDIA была представлен во всех восьми тестах и в коммерчески доступной категории, — отметил Пареш Харья, старший директор по управлению продуктами и вычислениям в центрах обработки данных. — Суперкомпьютер NVIDIA Selene на базе DGX SuperPod, установил все восемь рекордов производительности. Мы завершили четыре из восьми тестов менее чем за минуту, а самый сложный тест (MiniGo) занял менее 16 минут».

В свою очередь, Google отметила примерно 1,7-кратное улучшение результатов за год, всё благодаря использованию новых крупномасштабных модулей — до 4096 чипов TPU v4 в каждом. «Используя 3456 чипов TPU v4 в одном TPU v4 Pod, многие модели, которые раньше обучались за дни или недели, теперь обучаются за несколько секунд», — сообщила компания.

В целом, в закрытом разделе по-прежнему доминируют NVIDIA и Intel. Все результаты Intel, если не считать одного вхождения в список Habana Labs, по сути, показывают базовую производительность Xeon Cooper Lake. Ещё четыре результата подала Graphcore, а остальные, то есть Google TPU и Huawei Ascend, относятся к системам, которые пока недоступным коммерчески. Любопытно, что среди тестовых стендов есть те, которые имеют NVIDIA A100 с повышенным до 500 Вт TDP.

В открытом же разделе результатов совсем немного. Но именно им воспользовалась Graphcore, которая в обычных тестах показала не самые лучшие результаты — после оптимизаций производительность заметна выросла. Кроме того, компания упирает на то, что её решения, быть может, не так быстрые в сравнении с NVIDIA, зато они вдвое дешевле и, таким образом, показывают лучшую удельную производительность на доллар.

Постоянный URL: http://servernews.ru/1043255
17.06.2021 [18:46], Андрей Галадей

MLCommons представила ИИ-бенчмарк MLPerf Tiny AI Inference для встраиваемых систем

Опубликован новый ИИ-бенчмарк MLPerf Tiny Inference от MLCommons, который позволяет оценить производительность устройств с низким энергопотреблением и малыми габаритами на задачах инференса. На данный момент выпущена версия 0.5.

Это первый набор тестов, разработанный MLCommons специально для встраиваемых система. Это необходимо, к примеру, в области Интернета вещей, где зачастую нужно на лету анализировать данные с помощью небольших нейросетей, которые обрабатывают звук или изображение с датчиков.

 druva.com

druva.com

MLPerf Tiny v0.5 включает тесты для сценариев использования, в которых задействованы крошечные «нейронки», размером 100 Кбайт и меньше. На первом этапе тестирования были получены 17 рецензированных результатов от 5 академических и промышленных организаций, а также национальных лабораторий. Здесь доступны полные результаты тестирования.

 Нажмите для увеличения

Нажмите для увеличения

Список задач для тестирования включает:

  • Keyword Spotting (KWS) — детектирование ключевых слов в звуковой спектрограмме.
  • Visual Wake Words (VWW) — классификация изображений для определения присутствия человека на них.
  • Tiny Image Classification (IC) — классификация изображений по 10 категориям.
  • Anomaly Detection (AD) — обнаружение отклонений в звуках работы механизмов.
Постоянный URL: http://servernews.ru/1042275
22.04.2021 [00:43], Владимир Мироненко

NVIDIA установила рекорды во всех категориях ИИ-бенчмарка MLPerf Inference v1.0

Открытый инженерный консорциум MLCommons опубликовал результаты бенчмарка MLPerf Inference v1.0, набора тестов для оценки производительности систем инференса. MLPerf — признанный в отрасли бенчмарк для измерения производительности ИИ в различных задачах, включая компьютерное зрение, медицинскую визуализацию, рекомендательные системы, распознавание речи и обработку естественного языка.

В последний раунд тестирования были поданы заявки от 17 организаций, и было опубликовано 1994 результата по производительности для систем машинного обучения в категории как периферийных устройств, так и серверов центров обработки данных. В пакете MLPerf Inference v1.0 представлены новые методы, инструменты и показатели, дополняющие тесты производительности.

Эти новые показатели позволяют составлять отчёты и сравнивать энергопотребление, производительность и потребляемую мощность систем. Бенчмарк был разработан совместно со Standard Performance Evaluation Corp. (SPEC), ведущим поставщиком стандартизированных тестов и инструментов для оценки производительности современных вычислительных систем. В частности, MLPerf использует инструменты измерения мощности SPEC PTDaemon.

NVIDIA стала единственной компанией, представившей результаты всех тестов в категориях ЦОД и периферийных систем. Помимо собственных результатов NVIDIA, партнёры компании Alibaba, DellEMC, Fujitsu, Gigabyte, HPE, Inspur, Lenovo и Supermicro представили в общей сложности более 360 результатов своих систем на базе ускорителей NVIDIA.

NVIDIA сообщила, что её платформа инференса ИИ, которая недавно пополнилась графическими процессорами NVIDIA A30 и A10 для серверов, показала рекордную производительность во всех категориях. По словам компании, высокие показатели были достигнуты благодаря широким возможностям ИИ-экосистемы NVIDIA, охватывающей широкий спектр графических процессоров и программного обеспечения ИИ, включая TensorRT и NVIDIA Triton Inference Server.

Кроме того, NVIDIA продемонстрировала возможности технологии Multi-Instance GPU архитектуры NVIDIA Ampere, одновременно запустив все семь тестов MLPerf Offline на одном графическом процессоре с использованием семи инстансов MIG, которые показали практически ту же производительность (98%), как и в случае использования единственного инстанса MIG.

Постоянный URL: http://servernews.ru/1037872
Система Orphus