Материалы по тегу: бенчмарк

29.06.2022 [20:00], Алексей Степин

NVIDIA снова ставит рекорды в ИИ-бенчмарке MLPerf Training

Сегодня вышла очередная версия бенчмарка MLPerf Training для оценки производительности ИИ-ускорителей в различных сценариях, максимально приближённых к реальным. Всего в состав версии 2.0 входит 8 различных тестах в четырёх категориях.

NVDIA — давний и наиболее активный участник проекта MLPerf, именно результаты различных систем на базе ускорителей NVIDIA составляют 90% от всего объёма рейтинга. Также это единственный участник, стабильно принимающий участие во всех дисциплинах. В новой версии MLPerf 2.0 ускорители NVIDIA A100 вновь оказались единственными, охватившими все тесты.

 Последние результаты A100 в MLPerf 2.0. Источник: NVIDIA

Последние результаты A100 в MLPerf 2.0. Источник: NVIDIA

А суперкомпьютер Selene и вовсе продемонстрировал лидерство в шести дисциплинах MLPerf из восьми, уступив место лишь Intel Habana Gaudi 2 в тесте RN-50 и Google TPU v4 в тесте RetinaNet. Всего в «забеге» со стороны NVIDIA приняли участие 16 партнёров со своими платформами, в их число вошли такие известные компании, как ASUS, Baidu, CASIA, Dell Technologies, Fujitsu, GIGABYTE, H3C, HPE, Inspur, Lenovo, Nettrix и Supermicro. Большая часть из них запускала MLPerf 2.0 на системах, имеющих сертификацию самой NVIDIA.

 fds

A100 лидирует в шести тестах из восьми. Источник: NVIDIA

Опираясь на результаты тестов, NVIDIA говорит, что пока только она в состоянии предложить коммерческому клиенту законченную платформу, способную выполнять все стадии какого-либо ИИ-сценария: к примеру, от распознавания произнесённой фразы до поиска и классификации нужной для ответа информации, и наконец, озвучивания самого ответа.

Прогресс ИИ-ускорителей NVIDIA за 3.5 года. Источник: NViDIA

А использование унифицированной платформы вместо нескольких отдельных, закономерно снижает и стоимость владения, и сложность обслуживания и настройки. К тому же, такая платформа имеет задел на будущее, особенно с учётом того, что на смену A100 вскоре начнёт приходить новый флагман NVIDIA в лице H100.

Любопытные факты: за два года, прошедшие с первого участия A100 в тестировании, производительность удалось поднять в 6 раз за счёт оптимизаций программного стека, а за 3,5 года с момента начала участия NVIDIA в проекте MLPerf она выросла ещё больше, в целых 23 раза.

Постоянный URL: http://servernews.ru/1069131
16.06.2022 [20:46], Игорь Осколков

AMD EPYC опередили Intel Xeon в облачных тестах Cockroach Labs

Компания Cockroach Labs, разработчик распределённой СУБД CockroachDB, подготовила очередной отчёт 2022 Cloud Report, в котором сравнила современных инстансы «большой тройки» облаков: AWS, Google Cloud Platform и Microsoft Azure. В рамках исследования компания попыталась найти ответ на вопрос, часто задаваемый пользователями CockroachDB: лучше использовать много маленьких инстансов или несколько больших?

Для этого исследователи оценили производительность CPU (CoreMark), сетевой подсистемы (nperf), подсистемы хранения данных (FIO), а также исполнение OLTP-нагрузок (модифицированный TPC-C). В тестировании приняли участие инстансы с последними на текущий момент процессорами AMD EPYC Milan и Intel Xeon Ice Lake-SP, а вот Arm-системы пока что были исключены из подборки, так как официальная их поддержка появится только в осеннем релизе CockroachDB.

Авторы исследования отмечают, что если ранее по уровню общей производительности лидировали инстансы на базе процессоров Intel, а AMD-инстансы хоть и отставали от них, но зато выигрывали по соотношению цены и производительности, то теперь ситуация поменялась — решения AMD лидируют в обоих случаях. В OLTP- и CPU-бенчмарках чаще всего обгоняют Intel-системы, а в худшем случае идут с ними вровень.

 Источник: Cockroach Labs

Источник: Cockroach Labs

Впрочем, без нюансов не обошлось. Так, неожиданно выяснилось, что в CoreMark (только мультипоточные тесты) процессоры Intel Xeon Cascade Lake-SP оказались почему-то хуже, чем более новые Ice Lake-SP, чего быть не должно и что противоречит результатам OLTP-бенчмарков. Исследователи не готовы назвать причину такого поведения, поскольку проблема может крыться в аномальной работе бенчмарка, который может не отражать реальный уровень производительности CPU.

 Источник: Cockroach Labs

Источник: Cockroach Labs

Также авторы отчёта подчеркнули важность внимания к сети и хранилищу, поскольку они прямо влияют на производительности работы СУБД в конкретных нагрузках, а неправильный подбор конфигурации может значительно сказаться на стоимости использования. В частности, дорогое, но высокопроизводительное локальное хранилище нужно только в специфичных сценариях, а стоимость передачи трафика внутри облачного региона и между регионами может быть одинаковой.

Ещё одно наблюдение — все облака предоставляют ресурсы с чётко прописанными лимитами именно в рамках этих лимитов. А вот надеяться на то, что ресурсы без таких лимитов (например, без указан верхний порог скорости, но не указан нижний) всегда будут предоставляться по максимуму, ожидать не стоит. Если нужен гарантированный уровень производительности, чаще всего придётся доплатить. Также авторы указывают на важность соотношения vCPU c RAM и рекомендуют не менее 4 Гбайт на каждый vCPU.

Всего в рамках исследования было протестировано 56 разновидностей инстансов в 107 различных конфигурациях. На этот раз явного лидера выявлено не было, все три провайдеры в конечном итоге предлагают примерно равные возможности и конкурентные цены. Что же касается главного вопроса исследования, то ответ на него таков: в случае OLTP-нагрузок использование малых инстансов может быть лучше, чем использование более крупных.

Постоянный URL: http://servernews.ru/1068222
Система Orphus