Материалы по тегу: бенчмарк

17.06.2021 [18:46], Андрей Галадей

MLCommons представила ИИ-бенчмарк MLPerf Tiny AI Inference для встраиваемых систем

Опубликован новый ИИ-бенчмарк MLPerf Tiny Inference от MLCommons, который позволяет оценить производительность устройств с низким энергопотреблением и малыми габаритами на задачах инференса. На данный момент выпущена версия 0.5.

Это первый набор тестов, разработанный MLCommons специально для встраиваемых система. Это необходимо, к примеру, в области Интернета вещей, где зачастую нужно на лету анализировать данные с помощью небольших нейросетей, которые обрабатывают звук или изображение с датчиков.

druva.com

druva.com

MLPerf Tiny v0.5 включает тесты для сценариев использования, в которых задействованы крошечные «нейронки», размером 100 Кбайт и меньше. На первом этапе тестирования были получены 17 рецензированных результатов от 5 академических и промышленных организаций, а также национальных лабораторий. Здесь доступны полные результаты тестирования.

Нажмите для увеличения

Нажмите для увеличения

Список задач для тестирования включает:

  • Keyword Spotting (KWS) — детектирование ключевых слов в звуковой спектрограмме.
  • Visual Wake Words (VWW) — классификация изображений для определения присутствия человека на них.
  • Tiny Image Classification (IC) — классификация изображений по 10 категориям.
  • Anomaly Detection (AD) — обнаружение отклонений в звуках работы механизмов.
Постоянный URL: http://servernews.ru/1042275
22.04.2021 [00:43], Владимир Мироненко

NVIDIA установила рекорды во всех категориях ИИ-бенчмарка MLPerf Inference v1.0

Открытый инженерный консорциум MLCommons опубликовал результаты бенчмарка MLPerf Inference v1.0, набора тестов для оценки производительности систем инференса. MLPerf — признанный в отрасли бенчмарк для измерения производительности ИИ в различных задачах, включая компьютерное зрение, медицинскую визуализацию, рекомендательные системы, распознавание речи и обработку естественного языка.

В последний раунд тестирования были поданы заявки от 17 организаций, и было опубликовано 1994 результата по производительности для систем машинного обучения в категории как периферийных устройств, так и серверов центров обработки данных. В пакете MLPerf Inference v1.0 представлены новые методы, инструменты и показатели, дополняющие тесты производительности.

Эти новые показатели позволяют составлять отчёты и сравнивать энергопотребление, производительность и потребляемую мощность систем. Бенчмарк был разработан совместно со Standard Performance Evaluation Corp. (SPEC), ведущим поставщиком стандартизированных тестов и инструментов для оценки производительности современных вычислительных систем. В частности, MLPerf использует инструменты измерения мощности SPEC PTDaemon.

NVIDIA стала единственной компанией, представившей результаты всех тестов в категориях ЦОД и периферийных систем. Помимо собственных результатов NVIDIA, партнёры компании Alibaba, DellEMC, Fujitsu, Gigabyte, HPE, Inspur, Lenovo и Supermicro представили в общей сложности более 360 результатов своих систем на базе ускорителей NVIDIA.

NVIDIA сообщила, что её платформа инференса ИИ, которая недавно пополнилась графическими процессорами NVIDIA A30 и A10 для серверов, показала рекордную производительность во всех категориях. По словам компании, высокие показатели были достигнуты благодаря широким возможностям ИИ-экосистемы NVIDIA, охватывающей широкий спектр графических процессоров и программного обеспечения ИИ, включая TensorRT и NVIDIA Triton Inference Server.

Кроме того, NVIDIA продемонстрировала возможности технологии Multi-Instance GPU архитектуры NVIDIA Ampere, одновременно запустив все семь тестов MLPerf Offline на одном графическом процессоре с использованием семи инстансов MIG, которые показали практически ту же производительность (98%), как и в случае использования единственного инстанса MIG.

Постоянный URL: http://servernews.ru/1037872
23.03.2021 [00:38], Владимир Мироненко

VMware поделилась результатами бенчмарка VMmark для AMD EPYC 7003

VMware опубликовала результаты бенчмарка VMmark от Dell, HPE и Lenovo, которые используют новые процессоры AMD EPYC 3-го поколения в своих платформах. Компания сравнила в бенчмарке VMmark производительность процессоров EPYC 2-го поколения 7002 (Rome) и новых чипов EPYC 3-го поколения 7003 (Milan):

Компания отдельно привела сравнение результатов тестов решений Lenovo c AMD EPYC 7H12 и EPYC 7763. Оба результата получены для одного поставщика и одной модели сервера, ис оба были в «согласованной паре» конфигураций кластера с двумя двухсокетными узлами. Lenovo удалось достичь более высоких результатов благодаря возможности запустить два дополнительных набора (tiles) с 38 виртуальными машинами и при этом соответствовать строгим требованиям качества обслуживания (QoS), установленным эталонным тестом.

Для тестов версия VMware vSphere была обновлена с 6.7 U3 до свежего релиза 7.0 U2, ряд оптимизаций в котором может повысить производительность ЦП AMD EPYC до 30 % в различных тестах. Обновлённый планировщик ESXi в полной мере использует NUMA в процессорах EPYC для более оптимального размещения виртуальных машин и контейнеров. Таким образом, оптимизация позволяет развёртывать большее количество виртуальных машин или контейнеров с более высокой производительностью.

VMmark — бесплатный инструмент для тестирования производительности, используемый поставщиками оборудования и другими компаниями для измерения производительности, масштабируемости и энергопотребления платформ виртуализации, он является стандартом, по которому оценивается производительность платформ виртуализации.

Постоянный URL: http://servernews.ru/1035506
29.01.2021 [20:04], Андрей Галадей

NVIDIA обвинили в мошенничестве с тестами для систем Big Data

NVIDIA обвинили в мошенничестве из-за теста производительности для систем Big Data. В прошлом году на конференции GTC представители компании заявили, что её система DGX A100 был в 19,5 раз быстрее ближайшего конкурента в тесте TPCx-BB, разработанном Transaction Processing Performance Council (TPC). Однако на этой неделе представители TPC обвинили компанию в нарушении условий использования своего теста и в обходе его ограничений, что позволила искусственно завысить результаты, сообщает The Register.

В NVIDIA утверждали, что её система завершила тест TPCx-BB за 14,5 минут вместо 4,7 часов. Для тестирования использовалась сборка на базе 128 графических ускорителей A100 (16 × DGX A100). При этом NVIDIA не опубликовала свои результаты, а лишь заявила о факте сравнения их с официальными результатами TPC. Это, как отметили в TPC, является нарушением правил тестирования, поэтому приведённые NVIDIA сравнения следует считать недействительными.

Тест TPCx-BB измеряет производительность систем Big Data на базе платформы Hadoop, которая поддерживает GPU-ускорение. Он включает в себя выполнение SQL-запросов к структурированным данным и использует алгоритмы машинного обучения для неструктурированных данных, чтобы имитировать задачи аналитики больших данных в сфере розничной торговли.

Постоянный URL: http://servernews.ru/1031416
12.01.2021 [22:44], Алексей Степин

Битва за королевство ARM: Ampere Altra против AWS Graviton2

Вторжение архитектуры ARM в мир современных высокоплотных центров обработки и хранения данных оказалось успешным: в настоящее время AWS активно использует процессоры Graviton2, а Ampere начала поставки чипов Altra, показавших себя не хуже AMD EPYC второго поколения. Обе реализации серверных ARM-процессоров показывают в среднем лучшую в сравнении с x86-64 энергоэффективность, но как они проявят себя в прямом столкновении между собой?

Вкратце напомним: платформа Ampere Altra является открытой: процессоры имеют свой разъём LGA 4926, тогда как AWS Graviton2 хотя и базируются на той же архитектуре ARM Neoverse N1, но сторонним заказчикам не поставляются — воспользоваться можно лишь облачными инстансами, запускаемыми на системах с этими ЦП.

Ядер больше у Altra (80 против 64), но оба процессора не имеют поддержки SMT. В тактовых частотах преимущество также у Altra: 64-ядерный инстанс AWS m6g.metal имеет фиксированную частоту 2,5 ГГц, а у процессоров Altra Quicksilver Q80-33 она может достигать 3,3 ГГц. Кроме того, доступны конфигурации с двумя процессорными разъёмами, обеспечивающими суммарно 160 ядер. Тем не менее, результаты тестов представляют существенный интерес: столь серьёзные реализации архитектуры ARM столкнулись друг с другом впервые.

Полностью с обзором можно ознакомиться на сайте Phoronix, мы же рискнём выделить отдельные, на наш взгляд, наиболее интересные результаты. Так, в тесте HPCG победу одержала реализация Ampere, но при равном активном количестве ядер превосходство над Graviton2 составило лишь около 5%, и это с учётом возможности ядер Quicksilver разгоняться до 3,3 ГГц. Зато эта же возможность очень помогла процессорам Ampere одержать убедительную победу в тестах на сжатие данных.

Тест Stream показал чуть более высокий результат на платформе Graviton2, но разница столь незначительна, что её можно не принимать во внимание. А вот в Coremark 1.0, наборе тестов, созданном специально для оценки вычислительных способностей процессоров, Altra Quicksilver одерживает безоговорочную победу. Даже при равном с Graviton2 количестве активных ядер разница довольно серьёзна, а в 80-ядерном режиме Altra Q80-33 не оставляет процессору AWS ни шанса. И это же можно сказать про тесты с трассировкой лучей.

Ampere Altra Quicksilver: лучшая серверная платформа с архитектурой ARM

Ampere Altra Quicksilver: лучшая серверная платформа с архитектурой ARM

В остальных тестах картина схожая, либо не столь зависящая от количества активных ядер у Altra. Но Graviton2 не удалось выиграть нигде. Впрочем, это не значит, что решение AWS хуже: оба процессора базируются на дизайне ядер ARM Neoverse N1, но Graviton2 работает на существенно более низкой частоте и, по всей видимости, его проигрыш на 9/10 объясняется этой причиной. В целом же, ARM-платформа Ampere выглядит интереснее: она доступна и в виде классических серверов, а не только как облачная услуга, кроме того, в двухпроцессорной конфигурации со 160 ядрами платформа Mount Jade обеспечивает великолепную производительность.

Постоянный URL: http://servernews.ru/1029866
24.12.2020 [14:02], Юрий Поздеев

На смену SPECsfs 2014 придёт SPECstorage c новыми тестами для нагрузок ИИ и геномики

Standard Perfomance Evaluation Corporation (SPEC) — это некоммерческая организация, созданная для разработки и внедрения стандартизированных тестов и инструментов для оценки производительности и энергоэффективности вычислительных систем. SPEC не только разрабатывает тесты, но и публикует их результаты в своих регулярных отчетах.

Спектр тестов достаточно широкий и включает в себя облачные нагрузки, процессорные тесты, графические, тесты систем хранения, виртуализации и другие популярные сценарии использования. В последние годы все более популярными становятся исследования в области генетики и искусственного интеллекта, в связи с чем, SPEC решила заменить SPECsfs 2014 на SPECstorage, в который включены тесты по ИИ и геномике, чтобы соответствовать новым тенденциям и дать возможность пользователям оценивать, как ведут себя файловые хранилища данных в подобных нагрузках.

В SPECstorage появились следующие новые возможности:

  • Дополнительные атрибуты для рабочих нагрузок повышают точность моделирования поведения в различных сценариях;
  • Увеличенное масштабирование для более крупных систем. Ранее максимальное количество генераторов нагрузки в системе было ограничено 60 000, теперь оно увеличено до 4 000 000;
  • Новый тип рабочих нагрузок: обработка изображений при помощи ИИ (в Tensorflow), генетический анализ;
  • Средства подробного протоколирования и визуализации активности рабочих нагрузок;
  • Улучшенное глобальное распределение и синхронизация рабочих нагрузок (одновременный запуск рабочих нагрузок в разных географических регионах);
  • Расширенная поддержка сжатия и дедупликации;
  • Поддержка создания неоднородной клиентской нагрузки (одновременная работа Windows и *NIX, SMB и NFS);
  • Использование YAML для файлов конфигурации.

Обновленный тест имеет механизм сбора статистических данных, который позволяет пользователям извлекать информацию счетчиков производительности и загружать ее в базу данных для графического представления (например, спомощью Graphite, Carbon и Grafana):

Новый тест SPECstorage может поддерживать системы хранения, отличные от POSIX, с плагинами для доступа к службам хранения на основе AFS. В будущем будут добавлены хранилища объектов S3, Ceph и другие. Подробная информация о новом тесте представлена в документации на сайте SPEC.

Постоянный URL: http://servernews.ru/1028629
10.12.2020 [16:07], Андрей Галадей

Atos представила Q-Score, кроссплатформенный бенчмарк для квантовых компьютеров

Французская компания Atos сообщила, что 2020 год стал переломным для квантовых вычислений — в этой области наметился значительный рост, так что квантовые компьютеры рано или поздно станут достаточно массовыми. И для них будут нужны тестовые пакеты для оценки быстродействия.

Именно для этого и создан Q-Score. Этот тест измеряет фактическую производительность квантовых процессоров при решении задачи оптимизации. По словам гендиректора компании Эли Жерара (Elie Girard), Q-Score будет иметь наибольшее значение для приложений оптимизации. Он также заявил, что представленный тест является универсальным решением для любого типа кубита. Иначе говоря, это кроссплатформенный тест.

phys.org

phys.org

Жирар уточнил, что квантовые компьютеры требуют исправления огромного количества ошибок, в чём им и поможет тестовая система. Сегодняшние квантовые компьютеры имеют 15 баллов по шкале Q-Score. В прошлом году этот показатель составлял 10, а в 2021-м он может вырасти до 20. Для достижения квантового превосходства нужно хотя бы 60 баллов.

Отметим, что Atos участвует в европейском проекте NExt ApplicationS of Quantum Computing, целью которого является развитие квантовых приложений в ближайшем будущем и демонстрация квантового превосходства. Проекты включают задачи химии, биологии, медицины и так далее.

Постоянный URL: http://servernews.ru/1027511
19.11.2020 [14:36], Андрей Галадей

ИИ-бенчмарк MLPerf обзавёлся HPC-версией для суперкомпьютеров

Бенчмарк MLPerf Training v0.7 обзавёлся новым вариантом теста, который рассчитан на рабочие нагрузки для систем высокопроизводительных вычислений (High Performance Computing, HPC). Бенчмарк предназначен для тестирования систем машинного обучения с использованием наборов данных объёмом от 5,1 до 8,8 Тбайт.

Новый тест также учитывает работу подсистем ввода-вывода. Как отмечается, правила для MLPerf HPC v0.7 почти полностью повторяют MLPerf Training v0.7 с некоторыми поправками, что позволит точнее оценивать ИИ-системы именно в контексте HPC

robohub.org

robohub.org

Так выглядят результаты первых тестов:

Обычные локальные и облачные системы

Результаты при использования той же модели и оптимизатора, что и в эталонной реализации

HPC-системы

Результаты при использовании более быстрых моделей, чем исходная

Текущий набор тестов MLPerf HPC замеряет время, необходимое для подготовки новых моделей машинного обучения, чтобы они соответствовали стандартным целевым показателям качества. На данный момент это касается задач, связанных с климатической аналитикой и космологией. Впрочем, их потенциально можно применять и для других сфер вычислений такого рода.

Первая версия MLPerf HPC включает два теста:

  • CosmoFlow: трехмерная свёрточная архитектура, обученная на данных космологического моделирования N тел для прогнозирования четырех целевых космологических параметров.
  • DeepCAM: архитектура сегментации свёрточного кодера-декодера, обученная на данных моделирования климата CAM5 + TECA для выявления экстремальных погодных явлений, таких как атмосферные течения и тропические циклоны.
Постоянный URL: http://servernews.ru/1025765
11.11.2020 [13:10], SN Team

Сравнительное тестирование GPU-серверов с видеокартами NVIDIA RTX3000 в задачах AI/ML

Партнёрский материал

В начале сентября 2020 г. компания NVIDIA впервые представила графические карты семейства GeForce RTX 3000 на базе архитектуры RTX второго поколения — Ampere. NVIDIA нарушила свою традицию, когда новые поколения карт продавались дороже своих предшественников, а это значит, что стоимость тренировки модели оставалась примерно на одном уровне.

В этот раз NVIDIA установила стоимость новых и более популярных карт на уровне стоимости карт предыдущего поколения в момент начала их продаж. Для разработчиков ИИ-приложений это событие стало действительно важным — по сути, карты RTX 3000 открывают доступ к производительности, сравнимой с Titan RTX, но с гораздо более приятным ценником. Теперь у разработчиков data science появилась возможность тренировать модели быстрее без увеличения затрат.

Флагманские карты новой серии GeForce RTX 3090 получили 10 496 ядер NVIDIA CUDA с тактовой частотой 1,44 ГГц (ускорение до 1,71 ГГц), 328 тензорных ядер третьего поколения и 24 Гбайт 384-битной графической памяти GDDR6X. Еще более доступная по цене GeForce RTX 3080 обладает 8 704 ядрами CUDA с теми же тактовыми частотами, 272 тензорными ядрами и 10 Гбайт 320-битной памяти GDDR6X. Несмотря на дефицит новых видеокарт (NVIDIA даже была вынуждена приносить извинения рынку за образовавшуюся нехватку карт на старте продаж), уже в начале октября GPU-серверы появились в линейке продуктов у хостинг-провайдеров.

Нидерландский провайдер HOSTKEY одним из первых в Европе протестировал и представил GPU-серверы на базе новых карт GIGABYTE RTX3090/3080 TURBO. С 26 октября конфигурации на базе RTX 3090/Xeon E-2288G и RTX 3080/AMD Ryzen 9 3900X стали доступны всем клиентам HOSTKEY в дата-центрах в Нидерландах и Москве.

NVIDIA RTX 3000: золотая середина?

Карты RTX3090/3080 позиционируются производителем как более производительное решение на замену карт серии RTX 2000 с предыдущей архитектурой Turing. И, конечно, серверы с новыми картами значительно производительнее, чем доступные «народные» GPU-серверы на базе видеокарт GTX1080 (Ti), которые тоже пригодны для работы с нейросетями и прочими задачами машинного обучения (хотя и с оговорками), но при этом доступны по совсем уж «демократичным» ценам.

«Над» серией NVIDIA RTX 3000 располагаются все мощные решения на базе карт класса A100/A40 (Ampere) с тензорными ядрами третьего поколения числом до 432, Titan RTX/T4 (Turing) с тензорными ядрами второго поколения в количестве до 576, и V100 (Volta) с 640 тензорными ядрами первого поколения. Ценники на эти мощные карты, равно как и на аренду GPU-серверов с ними, значительно превышают предложения с RTX 3000, поэтому особенно интересно оценить на практике разрыв в производительности в задачах AI/ML.

Практические исследования

Face Reenactment

Одной из рабочих задач для оперативного тестирования GPU-серверов на основе новых карт RTX 3090 и RTX 3080 был выбран процесс Face Reenactment для нейросети U-Net+ResNet с пространственно-адаптивной нормализацией SPADE и patch-дискриминатором. В качестве фреймворка использовался Facebook PyTorch версии 1.6 со встроенным автоматическим режимом Automated mixed precision (AMP), а также режимом флага torch.backend.cudnn.benchmark = True.

Для сравнения этот же тест был запущен на GPU-сервере с картой GeForce GTX 1080 Ti, но уже без AMP, который только замедлил бы процесс, а также на машине с картой Titan RTX. Для чистоты эксперимента следует упомянуть, что в этом тестировании с картой Titan RTX использовалась система на процессоре Intel Core i9-10920X, в то время как остальные GPU-серверы со всеми остальными картами работали на Xeon E-2288G.

Безусловно, сравнение при классификации важно производить на одинаковых процессорах, поскольку именно они зачастую являются «бутылочным горлышком», ограничивающим производительность системы. Так что доля скептицизма в отношении погрешности результатов тестирования GPU в данном случае вполне уместна. Мы получили следующие результаты:

Минимальная разница между результатами RTX 3090 и Titan RTX выглядит особенно впечатляюще, если вспомнить об огромном ценовом разрыве между этими решениями. В следующем тестировании RTX 3090 заслуживает, как минимум, полноценного глубокого сравнения с GPU-сервером на базе одной и двух карт RTX 2080. Отставание RTX 3080 от RTX 3090 вполне объяснимо значительной разницей в объеме памяти — 10 Гбайт против 24 ГБ, на соответственное двух- и трехкратное отставание GTX 1080 Ti также наложила свой отпечаток разница в архитектурах.

Если же посмотреть на эти результаты с практической точки зрения, то есть в плане оценки финансовых расходов на обучение модели в случае аренды GPU-сервера, то чаша весов окончательно склоняется в пользу выбора системы с RTX 3090 — именно эта карта обеспечит наилучший использование бюджета как при недельном, так и при месячном тарифных планах.

Обучение GAN

Во второй тестовой задаче, которая заключалась в тренировке генеративно-состязательной нейронной сети (Generative Adversarial Network, GAN) с пакетом PyTorch, было интересно не только сравнить производительность карт различных поколений, но также отследить влияние состояния флага torch.backends.cudnn.benchmark на финальные результаты. При обучении GAN-архитектуры включение флага в положение True дает прирост производительности, но при этом может пострадать воспроизводимость результатов (Reproducibility).

Полученные результаты еще раз доказывают, что карта RTX 3090 с ее 24 Гбайт памяти GDDR6X представляет собой лучший выбор для решения тяжелых задач по обработке изображений. Как по производительности (выигрыш на 65% по сравнению с RTX 3080), так и по затратам на тренинг модели при аренде GPU-сервера в пересчёте на стоимость тренировки.

RTX 3080 значительно обошла по производительности GTX 1080 Ti, причём с любой установкой флага и несмотря на примерный паритет объема памяти. Однако следует помнить, что при обучении GAN-архитектуры включение флага torch.backends.cudnn.benchmark=True дает прирост производительности, но при этом может пострадать воспроизводимость результатов. причем,

Так что аренда более доступного GPU-сервера с картами GTX 1080 Ti при некоторых условиях может быть вполне разумным выбором — или, как минимум, сравнима по бюджету на тренинги моделей с RTX 3080. К сожалению, на прогон этой сетки через Titan RTX времени уже не оставалось, но с большой вероятностью картина в этом случае осталась бы аналогичной.

Обучение и инференс в vision-задачах

В следующей тестовой задаче по тренингу сетей в vision-задачах производительность видеокарт RTX 3090 и RTX 3080 сравнивалась с возможностями мощнейшего (и все еще очень дорогого) «ветерана» Tesla V100 с 16 Гбайт памяти HBM2.  Было протестировано пять классификационных моделей для обнаружения объектов со следующими тренинговыми установками: model forward + mean (no loss) + backward.

Тестовые задания запускались с применением последней версии фреймворка NVIDIA PyTorch (20.09-py3 от 24 октября). К сожалению, эта версия не собрана под архитектуру Ampere, поэтому для полноценной поддержки видеокарт RTX 3000 пришлось использовать PyTorch версии nightly build, а именно 1.8.0.dev20201017+cu110. У серии RTX 3000 также есть некоторые проблемы с torch.jit, но вопрос полностью снимается при сборке PyTorch под конкретную карту. Во всех тестах PyTorch использовался с автоматическим скриптом Mixed Precision, с включенным по умолчанию флагом torch.backend.cudnn.benchmark = True. 

Стоит упомянуть некоторые нюансы этого сравнения. В частности, была задействована не самая быстрая V100, которая работала внутри виртуальной машины. Из-за этого могли возникнуть некоторые потери, которые, вполне возможно, можно было бы оптимизировать при лучшей настройке. Помимо этого, в процессе тестирования не была задействована вся доступная VRAM, что позволило бы придать расчетам дополнительное ускорение.

Classification Training

Задача обучения сложных моделей нейросетей является профильным заданием для GPU-серверов на картах NVIDIA, позволяя порой на порядки сократить время тренировки алгоритмов глубокого обучения.

В условиях запуска задачи для получения результатов бенчмарка пересылка обнаружения объектов производилась без NMS, а пересылка для обучения не включала сопоставления целей. Иными словами, на практике скорость обучения с большой вероятностью замедлится на 10-20%, а скорость вывода снизится примерно на 20-30%.

Classification Inference

В данном случае инференс — это процесс получения предсказаний посредством прогона изображений через заранее обученную нейронную сеть, который вполне подходит для развертывания на удаленном GPU-сервере.

В целом можно говорить о том, что в заданиях тренировки и инференса сетей в Vision-задачах карта RTX 3090 медленнее Tesla V100 в среднем всего на 15-20%, и это очень впечатляюще — особенно с учетом разницы в цене.

Показателен и тот факт, что отставание RTX 3080 от RTX 3090 относительно невелико — по крайней мере, значительно меньше, чем при выполнении других задач. На практике это означает, что даже со сравнительно небольшим бюджетом, выделенным на аренду GPU-сервера на базе RTX 3080, можно добиться достаточно высокой производительности лишь с небольшим увеличением затрат времени на обработку данных.

Detection Training

Тестирование RetinNet c ResNet50FPN для обнаружения объектов производилось с указанными выше параметрами PyTorch (20.09-py3 от 24 октября), с флагом torch.backend.cudnn.benchmark=True и с тренинговыми установками model forward + mean (no loss) + backward.

Detection Inference

Здесь отставание карт серии RTX30 уже минимально, что говорит о несомненных преимуществах новой архитектуры Ampere для решения подобных задач. Карта RTX 3090 показала себя просто великолепно.

Сравнительно небольшое отставание бюджетной карты говорит о том, что благодаря отличному соотношению цена/возможности RTX 3080 может стать желанным выбором для решения задач прототипирования с экономичным бюджетом. По завершению создания прототипа модель можно масштабировать, развернув, например, на GPU-серверах с картами RTX 3090.

Заключение

По итогам тестирования новых графических решений семейства GeForce RTX 3000 можно с уверенностью утверждать, что компания NVIDIA блестяще справилась с задачей выпуска доступных видеокарт с тензорными ядрами, достаточно производительными для быстрых ИИ-вычислений. В некоторых задачах обучения сетей, таких как работа с разреженными сетями (Sparse network), преимущества архитектуры Ampere над поколением RTX20 позволяют добиться ускорения процесса в два раза.

Преимущества использования GPU-серверов с картами GeForce RTX 3090 особенно очевидны в задачах, где обучение моделей связано с повышенными требованиями к объему памяти — при анализе медицинских снимков, современном моделировании компьютерного зрения и везде, где есть необходимость обработки очень крупных изображений — например, при работе с GAN-архитектурами.

В то же время RTX 3080 с ее 10 Гбайт графической памяти вполне подойдет для работы с задачами глубокого машинного обучения, поскольку для изучения основ большинства архитектур вполне достаточно уменьшить размер сетей или использовать на входе изображения меньшего размера, а затем при необходимости масштабировать модель до необходимых параметров на более мощных GPU-серверах.

С учетом того, что память HBM, применяемая в картах класса A100, вряд ли существенно подешевеет в ближайшее время, можно сказать, что карты RTX 3090 / RTX 3080 являются вполне эффективной инвестицией на несколько ближайших лет.

Нидерландский хостинг-провайдер HOSTKEY предлагает широкий ассортимент GPU-серверов в дата-центрах в Нидерландах и в Москве на основе как GPU последнего поколения RTX3080 и RTX3090, так и на основе карт предыдущих поколений RTX2080Ti и GTX1080Ti/1080. Компания предлагает как готовые к работе серверы, так и серверы с индивидуальными конфигурациями, которые идеально отвечают потребностям заказчика. Компания благодарит Эмиля Закирова и Александра Широносова за помощь в проведении тестов.

Постоянный URL: http://servernews.ru/1025021
05.11.2020 [18:01], Сергей Карасёв

Серверы ASUS установили более 680 мировых рекордов в тестах SPEC

Компания ASUS объявила о том, что её серверы по состоянию на конец сентября нынешнего года установили в общей сложности 683 рекорда в тестах SPEC — Standard Performance Evaluation Corporation. Оценивалась производительность платформ на процессорах AMD и Intel, включая чипы EPYC 7002 и Xeon Scalable 1-го и 2-го поколений.

Речь идёт о результатах измерений в пакете SPEC CPU 2017: это набор эталонных тестов, позволяющий измерять и сравнивать производительность компьютерных систем при высоких вычислительных нагрузках, а также проводить стресс-тестирование процессоров, подсистем памяти и компиляторов.

Сообщается, что серверы ASUS с процессорами AMD EPYC 7002 поставили 213 мировых рекордов. В частности, 167 первых мест в бенчмарках SPEC CPU 2017 принадлежат однопроцессорным системам, ещё 46 — двухпроцессорным. Это рекорды по скорости целочисленных вычислений, вычислений с плавающей запятой и пр. Что касается серверов с процессорами Intel Xeon Scalable 1-го и 2-го поколений, то такие платформы ASUS установили 466 рекордов.

Компания говорит, что высокая производительность серверов ASUS достигается в том числе за счёт системы Performance Boost, состоящей из трёх ключевых компонентов: Core Optimizer, Engine Boost и Workload Presets. Средства Core Optimizer увеличивают тактовую частоту процессора при выполнении многопоточных операций и снижают задержки. Инструмент Engine Boost оптимизирует питание, что позволяет увеличить общую производительность. Наконец, Workload Presets — это предустановленные профили BIOS для повышения энергоэффективности и производительности на пиковой тактовой частоте.

Постоянный URL: http://servernews.ru/1024671
Система Orphus