Материалы по тегу: бенчмарк

17.11.2021 [19:00], Владимир Мироненко

Решения NVIDIA лидируют в ИИ-бенчмарках MLPerf HPC 1.0

Опубликованы результаты MLPerf HPC 1.0, набора отраслевых тестов для оценки производительности машинного обучения, впервые вышедшего в мае 2018 года. Новые бенчмарки MLPerf касаются вычислений, которые ускоряют и дополняют моделирование на суперкомпьютерах с помощью ИИ. Системы на базе решений NVIDIA победили в четырёх из пяти тестов MLPerf HPC 1.0.

По словам компании, последние достижения в области молекулярной динамики, астрономии и климатического моделирования стали возможными благодаря совместному использованию HPC и ИИ. Это тенденция способствует внедрению ИИ-систем экзафлопсного класса (в данном случае речь идёт о вычислениях пониженной точности) как в науке, так и в промышленности.

Тесты MLPerf поддерживаются MLCommons, отраслевой группой, включающей Alibaba, Google, Intel, Meta, NVIDIA и т.д. Бенчмарки MLPerf HPC включают два вида тестов. В первом измеряется время, необходимое на тренировку модели (сильное масштабирование, strong scaling), во втором — общая пропускная способность системы, то есть сколько моделей получается натренировать за заданный промежуток времени.

В первом варианте тестов по сравнению с лучшими результатами в MLPerf 0.7 в прошлом году NVIDIA в 5 раз улучшила результаты в тесте CosmoFlow (обработка изображений с телескопов), а в DeepCam (детектирование ураганов и воздушных потоков) — почти в 7 раз. А суперкомпьютер Perlmutter лидирует в бенчмарке opencatalyst (отслеживание того, насколько хорошо предсказываются межмолекулярные взаимодействия) с использованием 2048 ускорителей NVIDIA A100.

В тестах второго типа NVIDIA лидирует в DeepCam — 16 узлов на задание и 256 одновременных заданий. Все тесты проводились на NVIDIA Selene, собственной системе NVIDIA и крупнейшем в мире промышленном суперкомпьютере. Для профилирования нагрузок использовались инструменты NVIDIA DALI (ускорение обработки данных) и CUDA Graphs (снижение задержки для небольших порций данных для эффективного масштабирования до 1024 и более ускорителей).

Также компания задействовала NVIDIA SHARP, ключевой компонент NVIDIA MagnumIO, для ускорения обмена данными и выгрузки данных в сеть коммутатора NVIDIA Quantum InfiniBand. Все эти инструменты не являются закрытыми. Всё ПО для проведения самих тестов доступно в репозитории MLPerf. NVIDIA также регулярно обновляет необходимые компоненты в своём каталоге NGC.

Всего в этом раунде MLPerf HPC семь из восьми участников использовали ускорители NVIDIA. Среди них есть немецкий суперкомпьютерный центр Jülich Supercomputing Centre, Швейцарский национальный вычислительный центр, а также Аргоннская национальная лаборатория и Национальная лаборатория им. Лоуренса, Национальный центр суперкомпьютерных приложений и Техасский центр перспективных вычислений в США. Компания отметила, что хорошие результаты в тестах — результат зрелости программно-аппаратной ИИ-платформы NVIDIA.

Постоянный URL: http://servernews.ru/1053925
01.07.2021 [02:02], Владимир Мироненко

В ИИ-бенчмарке MLPerf Training Google поставила абсолютный рекорд, но по общим результатам лидирует NVIDIA

Открытый инженерный консорциум MLCommons опубликовал новые результаты MLPerf Training v1.0, набора тестов для оценки производительности машинного обучения. MLPerf Training измеряет время, необходимое для обучения ИИ-моделей до заданного уровня качества работы в различных задачах, включая классификацию изображений, обнаружение объектов, NLP, рекомендации и обучение с подкреплением.

В последнем раунде MLPerf получил заявки от 13 организаций и опубликовал более 650 рецензированных результатов для систем машинного обучения, от малых периферийных устройств до мощных серверов. «В этом раунде были представлены новинки программного и аппаратного обеспечения от Dell, Fujitsu, Gigabyte, Google, Graphcore, Habana Labs, Inspur, Intel, Lenovo, Nettrix, NVIDIA, PCL & PKU и Supermicro», — сообщил MLCommons.

Бенчмарки MLPerf постоянно совершенствуются. MLCommons сообщил, что «по сравнению с последним раундом представления лучшие результаты тестов улучшились в 2,1 раза, что свидетельствует о существенном улучшении аппаратного, программного обеспечения и масштаба систем». Последний раунд включал в себя два новых теста — для измерения производительности преобразования речи в текст (Speech-to-Text with RNN-T) и обработки медицинских изображений (3D Medical Imaging with 3D U-Net). Полный набор тестов MLPerf Training включает BERT, DLRM, Mask R-CNN, ResNet-50 v1.5, SSD, RNN-T, 3d-UNet и MiniGO.

Подобно прошлым результатам MLPerf Training, заявки состоят из двух разделов: закрытого и открытого. Закрытые заявки используют одну и ту же эталонную модель, чтобы обеспечить равные условия для всех систем, а в открытом соперничестве разрешено использовать различные модели. Представленные материалы дополнительно классифицируются по доступности: коммерческие системы, предварительные версии и R&D-проекты.

Большая часть представленных систем по-прежнему полагалась на различные графические процессоры NVIDIA. Было протестировано 82 конфигурации в закрытом разделе. NVIDIA, как обычно, сделала подавляющее большинство заявок либо напрямую, либо через OEM-партнеров. На конфигурации на базе NVIDIA пришлось около 70 % заявок.

«Только NVIDIA была представлен во всех восьми тестах и в коммерчески доступной категории, — отметил Пареш Харья, старший директор по управлению продуктами и вычислениям в центрах обработки данных. — Суперкомпьютер NVIDIA Selene на базе DGX SuperPod, установил все восемь рекордов производительности. Мы завершили четыре из восьми тестов менее чем за минуту, а самый сложный тест (MiniGo) занял менее 16 минут».

В свою очередь, Google отметила примерно 1,7-кратное улучшение результатов за год, всё благодаря использованию новых крупномасштабных модулей — до 4096 чипов TPU v4 в каждом. «Используя 3456 чипов TPU v4 в одном TPU v4 Pod, многие модели, которые раньше обучались за дни или недели, теперь обучаются за несколько секунд», — сообщила компания.

В целом, в закрытом разделе по-прежнему доминируют NVIDIA и Intel. Все результаты Intel, если не считать одного вхождения в список Habana Labs, по сути, показывают базовую производительность Xeon Cooper Lake. Ещё четыре результата подала Graphcore, а остальные, то есть Google TPU и Huawei Ascend, относятся к системам, которые пока недоступным коммерчески. Любопытно, что среди тестовых стендов есть те, которые имеют NVIDIA A100 с повышенным до 500 Вт TDP.

В открытом же разделе результатов совсем немного. Но именно им воспользовалась Graphcore, которая в обычных тестах показала не самые лучшие результаты — после оптимизаций производительность заметна выросла. Кроме того, компания упирает на то, что её решения, быть может, не так быстрые в сравнении с NVIDIA, зато они вдвое дешевле и, таким образом, показывают лучшую удельную производительность на доллар.

Постоянный URL: http://servernews.ru/1043255
17.06.2021 [18:46], Андрей Галадей

MLCommons представила ИИ-бенчмарк MLPerf Tiny AI Inference для встраиваемых систем

Опубликован новый ИИ-бенчмарк MLPerf Tiny Inference от MLCommons, который позволяет оценить производительность устройств с низким энергопотреблением и малыми габаритами на задачах инференса. На данный момент выпущена версия 0.5.

Это первый набор тестов, разработанный MLCommons специально для встраиваемых система. Это необходимо, к примеру, в области Интернета вещей, где зачастую нужно на лету анализировать данные с помощью небольших нейросетей, которые обрабатывают звук или изображение с датчиков.

druva.com

druva.com

MLPerf Tiny v0.5 включает тесты для сценариев использования, в которых задействованы крошечные «нейронки», размером 100 Кбайт и меньше. На первом этапе тестирования были получены 17 рецензированных результатов от 5 академических и промышленных организаций, а также национальных лабораторий. Здесь доступны полные результаты тестирования.

Нажмите для увеличения

Нажмите для увеличения

Список задач для тестирования включает:

  • Keyword Spotting (KWS) — детектирование ключевых слов в звуковой спектрограмме.
  • Visual Wake Words (VWW) — классификация изображений для определения присутствия человека на них.
  • Tiny Image Classification (IC) — классификация изображений по 10 категориям.
  • Anomaly Detection (AD) — обнаружение отклонений в звуках работы механизмов.
Постоянный URL: http://servernews.ru/1042275
22.04.2021 [00:43], Владимир Мироненко

NVIDIA установила рекорды во всех категориях ИИ-бенчмарка MLPerf Inference v1.0

Открытый инженерный консорциум MLCommons опубликовал результаты бенчмарка MLPerf Inference v1.0, набора тестов для оценки производительности систем инференса. MLPerf — признанный в отрасли бенчмарк для измерения производительности ИИ в различных задачах, включая компьютерное зрение, медицинскую визуализацию, рекомендательные системы, распознавание речи и обработку естественного языка.

В последний раунд тестирования были поданы заявки от 17 организаций, и было опубликовано 1994 результата по производительности для систем машинного обучения в категории как периферийных устройств, так и серверов центров обработки данных. В пакете MLPerf Inference v1.0 представлены новые методы, инструменты и показатели, дополняющие тесты производительности.

Эти новые показатели позволяют составлять отчёты и сравнивать энергопотребление, производительность и потребляемую мощность систем. Бенчмарк был разработан совместно со Standard Performance Evaluation Corp. (SPEC), ведущим поставщиком стандартизированных тестов и инструментов для оценки производительности современных вычислительных систем. В частности, MLPerf использует инструменты измерения мощности SPEC PTDaemon.

NVIDIA стала единственной компанией, представившей результаты всех тестов в категориях ЦОД и периферийных систем. Помимо собственных результатов NVIDIA, партнёры компании Alibaba, DellEMC, Fujitsu, Gigabyte, HPE, Inspur, Lenovo и Supermicro представили в общей сложности более 360 результатов своих систем на базе ускорителей NVIDIA.

NVIDIA сообщила, что её платформа инференса ИИ, которая недавно пополнилась графическими процессорами NVIDIA A30 и A10 для серверов, показала рекордную производительность во всех категориях. По словам компании, высокие показатели были достигнуты благодаря широким возможностям ИИ-экосистемы NVIDIA, охватывающей широкий спектр графических процессоров и программного обеспечения ИИ, включая TensorRT и NVIDIA Triton Inference Server.

Кроме того, NVIDIA продемонстрировала возможности технологии Multi-Instance GPU архитектуры NVIDIA Ampere, одновременно запустив все семь тестов MLPerf Offline на одном графическом процессоре с использованием семи инстансов MIG, которые показали практически ту же производительность (98%), как и в случае использования единственного инстанса MIG.

Постоянный URL: http://servernews.ru/1037872
23.03.2021 [00:38], Владимир Мироненко

VMware поделилась результатами бенчмарка VMmark для AMD EPYC 7003

VMware опубликовала результаты бенчмарка VMmark от Dell, HPE и Lenovo, которые используют новые процессоры AMD EPYC 3-го поколения в своих платформах. Компания сравнила в бенчмарке VMmark производительность процессоров EPYC 2-го поколения 7002 (Rome) и новых чипов EPYC 3-го поколения 7003 (Milan):

Компания отдельно привела сравнение результатов тестов решений Lenovo c AMD EPYC 7H12 и EPYC 7763. Оба результата получены для одного поставщика и одной модели сервера, ис оба были в «согласованной паре» конфигураций кластера с двумя двухсокетными узлами. Lenovo удалось достичь более высоких результатов благодаря возможности запустить два дополнительных набора (tiles) с 38 виртуальными машинами и при этом соответствовать строгим требованиям качества обслуживания (QoS), установленным эталонным тестом.

Для тестов версия VMware vSphere была обновлена с 6.7 U3 до свежего релиза 7.0 U2, ряд оптимизаций в котором может повысить производительность ЦП AMD EPYC до 30 % в различных тестах. Обновлённый планировщик ESXi в полной мере использует NUMA в процессорах EPYC для более оптимального размещения виртуальных машин и контейнеров. Таким образом, оптимизация позволяет развёртывать большее количество виртуальных машин или контейнеров с более высокой производительностью.

VMmark — бесплатный инструмент для тестирования производительности, используемый поставщиками оборудования и другими компаниями для измерения производительности, масштабируемости и энергопотребления платформ виртуализации, он является стандартом, по которому оценивается производительность платформ виртуализации.

Постоянный URL: http://servernews.ru/1035506
29.01.2021 [20:04], Андрей Галадей

NVIDIA обвинили в мошенничестве с тестами для систем Big Data

NVIDIA обвинили в мошенничестве из-за теста производительности для систем Big Data. В прошлом году на конференции GTC представители компании заявили, что её система DGX A100 был в 19,5 раз быстрее ближайшего конкурента в тесте TPCx-BB, разработанном Transaction Processing Performance Council (TPC). Однако на этой неделе представители TPC обвинили компанию в нарушении условий использования своего теста и в обходе его ограничений, что позволила искусственно завысить результаты, сообщает The Register.

В NVIDIA утверждали, что её система завершила тест TPCx-BB за 14,5 минут вместо 4,7 часов. Для тестирования использовалась сборка на базе 128 графических ускорителей A100 (16 × DGX A100). При этом NVIDIA не опубликовала свои результаты, а лишь заявила о факте сравнения их с официальными результатами TPC. Это, как отметили в TPC, является нарушением правил тестирования, поэтому приведённые NVIDIA сравнения следует считать недействительными.

Тест TPCx-BB измеряет производительность систем Big Data на базе платформы Hadoop, которая поддерживает GPU-ускорение. Он включает в себя выполнение SQL-запросов к структурированным данным и использует алгоритмы машинного обучения для неструктурированных данных, чтобы имитировать задачи аналитики больших данных в сфере розничной торговли.

Постоянный URL: http://servernews.ru/1031416
12.01.2021 [22:44], Алексей Степин

Битва за королевство ARM: Ampere Altra против AWS Graviton2

Вторжение архитектуры ARM в мир современных высокоплотных центров обработки и хранения данных оказалось успешным: в настоящее время AWS активно использует процессоры Graviton2, а Ampere начала поставки чипов Altra, показавших себя не хуже AMD EPYC второго поколения. Обе реализации серверных ARM-процессоров показывают в среднем лучшую в сравнении с x86-64 энергоэффективность, но как они проявят себя в прямом столкновении между собой?

Вкратце напомним: платформа Ampere Altra является открытой: процессоры имеют свой разъём LGA 4926, тогда как AWS Graviton2 хотя и базируются на той же архитектуре ARM Neoverse N1, но сторонним заказчикам не поставляются — воспользоваться можно лишь облачными инстансами, запускаемыми на системах с этими ЦП.

Ядер больше у Altra (80 против 64), но оба процессора не имеют поддержки SMT. В тактовых частотах преимущество также у Altra: 64-ядерный инстанс AWS m6g.metal имеет фиксированную частоту 2,5 ГГц, а у процессоров Altra Quicksilver Q80-33 она может достигать 3,3 ГГц. Кроме того, доступны конфигурации с двумя процессорными разъёмами, обеспечивающими суммарно 160 ядер. Тем не менее, результаты тестов представляют существенный интерес: столь серьёзные реализации архитектуры ARM столкнулись друг с другом впервые.

Полностью с обзором можно ознакомиться на сайте Phoronix, мы же рискнём выделить отдельные, на наш взгляд, наиболее интересные результаты. Так, в тесте HPCG победу одержала реализация Ampere, но при равном активном количестве ядер превосходство над Graviton2 составило лишь около 5%, и это с учётом возможности ядер Quicksilver разгоняться до 3,3 ГГц. Зато эта же возможность очень помогла процессорам Ampere одержать убедительную победу в тестах на сжатие данных.

Тест Stream показал чуть более высокий результат на платформе Graviton2, но разница столь незначительна, что её можно не принимать во внимание. А вот в Coremark 1.0, наборе тестов, созданном специально для оценки вычислительных способностей процессоров, Altra Quicksilver одерживает безоговорочную победу. Даже при равном с Graviton2 количестве активных ядер разница довольно серьёзна, а в 80-ядерном режиме Altra Q80-33 не оставляет процессору AWS ни шанса. И это же можно сказать про тесты с трассировкой лучей.

Ampere Altra Quicksilver: лучшая серверная платформа с архитектурой ARM

Ampere Altra Quicksilver: лучшая серверная платформа с архитектурой ARM

В остальных тестах картина схожая, либо не столь зависящая от количества активных ядер у Altra. Но Graviton2 не удалось выиграть нигде. Впрочем, это не значит, что решение AWS хуже: оба процессора базируются на дизайне ядер ARM Neoverse N1, но Graviton2 работает на существенно более низкой частоте и, по всей видимости, его проигрыш на 9/10 объясняется этой причиной. В целом же, ARM-платформа Ampere выглядит интереснее: она доступна и в виде классических серверов, а не только как облачная услуга, кроме того, в двухпроцессорной конфигурации со 160 ядрами платформа Mount Jade обеспечивает великолепную производительность.

Постоянный URL: http://servernews.ru/1029866
24.12.2020 [14:02], Юрий Поздеев

На смену SPECsfs 2014 придёт SPECstorage c новыми тестами для нагрузок ИИ и геномики

Standard Perfomance Evaluation Corporation (SPEC) — это некоммерческая организация, созданная для разработки и внедрения стандартизированных тестов и инструментов для оценки производительности и энергоэффективности вычислительных систем. SPEC не только разрабатывает тесты, но и публикует их результаты в своих регулярных отчетах.

Спектр тестов достаточно широкий и включает в себя облачные нагрузки, процессорные тесты, графические, тесты систем хранения, виртуализации и другие популярные сценарии использования. В последние годы все более популярными становятся исследования в области генетики и искусственного интеллекта, в связи с чем, SPEC решила заменить SPECsfs 2014 на SPECstorage, в который включены тесты по ИИ и геномике, чтобы соответствовать новым тенденциям и дать возможность пользователям оценивать, как ведут себя файловые хранилища данных в подобных нагрузках.

В SPECstorage появились следующие новые возможности:

  • Дополнительные атрибуты для рабочих нагрузок повышают точность моделирования поведения в различных сценариях;
  • Увеличенное масштабирование для более крупных систем. Ранее максимальное количество генераторов нагрузки в системе было ограничено 60 000, теперь оно увеличено до 4 000 000;
  • Новый тип рабочих нагрузок: обработка изображений при помощи ИИ (в Tensorflow), генетический анализ;
  • Средства подробного протоколирования и визуализации активности рабочих нагрузок;
  • Улучшенное глобальное распределение и синхронизация рабочих нагрузок (одновременный запуск рабочих нагрузок в разных географических регионах);
  • Расширенная поддержка сжатия и дедупликации;
  • Поддержка создания неоднородной клиентской нагрузки (одновременная работа Windows и *NIX, SMB и NFS);
  • Использование YAML для файлов конфигурации.

Обновленный тест имеет механизм сбора статистических данных, который позволяет пользователям извлекать информацию счетчиков производительности и загружать ее в базу данных для графического представления (например, спомощью Graphite, Carbon и Grafana):

Новый тест SPECstorage может поддерживать системы хранения, отличные от POSIX, с плагинами для доступа к службам хранения на основе AFS. В будущем будут добавлены хранилища объектов S3, Ceph и другие. Подробная информация о новом тесте представлена в документации на сайте SPEC.

Постоянный URL: http://servernews.ru/1028629
10.12.2020 [16:07], Андрей Галадей

Atos представила Q-Score, кроссплатформенный бенчмарк для квантовых компьютеров

Французская компания Atos сообщила, что 2020 год стал переломным для квантовых вычислений — в этой области наметился значительный рост, так что квантовые компьютеры рано или поздно станут достаточно массовыми. И для них будут нужны тестовые пакеты для оценки быстродействия.

Именно для этого и создан Q-Score. Этот тест измеряет фактическую производительность квантовых процессоров при решении задачи оптимизации. По словам гендиректора компании Эли Жерара (Elie Girard), Q-Score будет иметь наибольшее значение для приложений оптимизации. Он также заявил, что представленный тест является универсальным решением для любого типа кубита. Иначе говоря, это кроссплатформенный тест.

phys.org

phys.org

Жирар уточнил, что квантовые компьютеры требуют исправления огромного количества ошибок, в чём им и поможет тестовая система. Сегодняшние квантовые компьютеры имеют 15 баллов по шкале Q-Score. В прошлом году этот показатель составлял 10, а в 2021-м он может вырасти до 20. Для достижения квантового превосходства нужно хотя бы 60 баллов.

Отметим, что Atos участвует в европейском проекте NExt ApplicationS of Quantum Computing, целью которого является развитие квантовых приложений в ближайшем будущем и демонстрация квантового превосходства. Проекты включают задачи химии, биологии, медицины и так далее.

Постоянный URL: http://servernews.ru/1027511
19.11.2020 [14:36], Андрей Галадей

ИИ-бенчмарк MLPerf обзавёлся HPC-версией для суперкомпьютеров

Бенчмарк MLPerf Training v0.7 обзавёлся новым вариантом теста, который рассчитан на рабочие нагрузки для систем высокопроизводительных вычислений (High Performance Computing, HPC). Бенчмарк предназначен для тестирования систем машинного обучения с использованием наборов данных объёмом от 5,1 до 8,8 Тбайт.

Новый тест также учитывает работу подсистем ввода-вывода. Как отмечается, правила для MLPerf HPC v0.7 почти полностью повторяют MLPerf Training v0.7 с некоторыми поправками, что позволит точнее оценивать ИИ-системы именно в контексте HPC

robohub.org

robohub.org

Так выглядят результаты первых тестов:

Обычные локальные и облачные системы

Результаты при использования той же модели и оптимизатора, что и в эталонной реализации

HPC-системы

Результаты при использовании более быстрых моделей, чем исходная

Текущий набор тестов MLPerf HPC замеряет время, необходимое для подготовки новых моделей машинного обучения, чтобы они соответствовали стандартным целевым показателям качества. На данный момент это касается задач, связанных с климатической аналитикой и космологией. Впрочем, их потенциально можно применять и для других сфер вычислений такого рода.

Первая версия MLPerf HPC включает два теста:

  • CosmoFlow: трехмерная свёрточная архитектура, обученная на данных космологического моделирования N тел для прогнозирования четырех целевых космологических параметров.
  • DeepCAM: архитектура сегментации свёрточного кодера-декодера, обученная на данных моделирования климата CAM5 + TECA для выявления экстремальных погодных явлений, таких как атмосферные течения и тропические циклоны.
Постоянный URL: http://servernews.ru/1025765
Система Orphus