Материалы по тегу: бенчмарк

19.11.2020 [14:36], Андрей Галадей

ИИ-бенчмарк MLPerf обзавёлся HPC-версией для суперкомпьютеров

Бенчмарк MLPerf Training v0.7 обзавёлся новым вариантом теста, который рассчитан на рабочие нагрузки для систем высокопроизводительных вычислений (High Performance Computing, HPC). Бенчмарк предназначен для тестирования систем машинного обучения с использованием наборов данных объёмом от 5,1 до 8,8 Тбайт.

Новый тест также учитывает работу подсистем ввода-вывода. Как отмечается, правила для MLPerf HPC v0.7 почти полностью повторяют MLPerf Training v0.7 с некоторыми поправками, что позволит точнее оценивать ИИ-системы именно в контексте HPC

robohub.org

robohub.org

Так выглядят результаты первых тестов:

Обычные локальные и облачные системы

Результаты при использования той же модели и оптимизатора, что и в эталонной реализации

HPC-системы

Результаты при использовании более быстрых моделей, чем исходная

Текущий набор тестов MLPerf HPC замеряет время, необходимое для подготовки новых моделей машинного обучения, чтобы они соответствовали стандартным целевым показателям качества. На данный момент это касается задач, связанных с климатической аналитикой и космологией. Впрочем, их потенциально можно применять и для других сфер вычислений такого рода.

Первая версия MLPerf HPC включает два теста:

  • CosmoFlow: трехмерная свёрточная архитектура, обученная на данных космологического моделирования N тел для прогнозирования четырех целевых космологических параметров.
  • DeepCAM: архитектура сегментации свёрточного кодера-декодера, обученная на данных моделирования климата CAM5 + TECA для выявления экстремальных погодных явлений, таких как атмосферные течения и тропические циклоны.
Постоянный URL: http://servernews.ru/1025765
11.11.2020 [13:10], SN Team

Сравнительное тестирование GPU-серверов с видеокартами NVIDIA RTX3000 в задачах AI/ML

Партнёрский материал

В начале сентября 2020 г. компания NVIDIA впервые представила графические карты семейства GeForce RTX 3000 на базе архитектуры RTX второго поколения — Ampere. NVIDIA нарушила свою традицию, когда новые поколения карт продавались дороже своих предшественников, а это значит, что стоимость тренировки модели оставалась примерно на одном уровне.

В этот раз NVIDIA установила стоимость новых и более популярных карт на уровне стоимости карт предыдущего поколения в момент начала их продаж. Для разработчиков ИИ-приложений это событие стало действительно важным — по сути, карты RTX 3000 открывают доступ к производительности, сравнимой с Titan RTX, но с гораздо более приятным ценником. Теперь у разработчиков data science появилась возможность тренировать модели быстрее без увеличения затрат.

Флагманские карты новой серии GeForce RTX 3090 получили 10 496 ядер NVIDIA CUDA с тактовой частотой 1,44 ГГц (ускорение до 1,71 ГГц), 328 тензорных ядер третьего поколения и 24 Гбайт 384-битной графической памяти GDDR6X. Еще более доступная по цене GeForce RTX 3080 обладает 8 704 ядрами CUDA с теми же тактовыми частотами, 272 тензорными ядрами и 10 Гбайт 320-битной памяти GDDR6X. Несмотря на дефицит новых видеокарт (NVIDIA даже была вынуждена приносить извинения рынку за образовавшуюся нехватку карт на старте продаж), уже в начале октября GPU-серверы появились в линейке продуктов у хостинг-провайдеров.

Нидерландский провайдер HOSTKEY одним из первых в Европе протестировал и представил GPU-серверы на базе новых карт GIGABYTE RTX3090/3080 TURBO. С 26 октября конфигурации на базе RTX 3090/Xeon E-2288G и RTX 3080/AMD Ryzen 9 3900X стали доступны всем клиентам HOSTKEY в дата-центрах в Нидерландах и Москве.

NVIDIA RTX 3000: золотая середина?

Карты RTX3090/3080 позиционируются производителем как более производительное решение на замену карт серии RTX 2000 с предыдущей архитектурой Turing. И, конечно, серверы с новыми картами значительно производительнее, чем доступные «народные» GPU-серверы на базе видеокарт GTX1080 (Ti), которые тоже пригодны для работы с нейросетями и прочими задачами машинного обучения (хотя и с оговорками), но при этом доступны по совсем уж «демократичным» ценам.

«Над» серией NVIDIA RTX 3000 располагаются все мощные решения на базе карт класса A100/A40 (Ampere) с тензорными ядрами третьего поколения числом до 432, Titan RTX/T4 (Turing) с тензорными ядрами второго поколения в количестве до 576, и V100 (Volta) с 640 тензорными ядрами первого поколения. Ценники на эти мощные карты, равно как и на аренду GPU-серверов с ними, значительно превышают предложения с RTX 3000, поэтому особенно интересно оценить на практике разрыв в производительности в задачах AI/ML.

Практические исследования

Face Reenactment

Одной из рабочих задач для оперативного тестирования GPU-серверов на основе новых карт RTX 3090 и RTX 3080 был выбран процесс Face Reenactment для нейросети U-Net+ResNet с пространственно-адаптивной нормализацией SPADE и patch-дискриминатором. В качестве фреймворка использовался Facebook PyTorch версии 1.6 со встроенным автоматическим режимом Automated mixed precision (AMP), а также режимом флага torch.backend.cudnn.benchmark = True.

Для сравнения этот же тест был запущен на GPU-сервере с картой GeForce GTX 1080 Ti, но уже без AMP, который только замедлил бы процесс, а также на машине с картой Titan RTX. Для чистоты эксперимента следует упомянуть, что в этом тестировании с картой Titan RTX использовалась система на процессоре Intel Core i9-10920X, в то время как остальные GPU-серверы со всеми остальными картами работали на Xeon E-2288G.

Безусловно, сравнение при классификации важно производить на одинаковых процессорах, поскольку именно они зачастую являются «бутылочным горлышком», ограничивающим производительность системы. Так что доля скептицизма в отношении погрешности результатов тестирования GPU в данном случае вполне уместна. Мы получили следующие результаты:

Минимальная разница между результатами RTX 3090 и Titan RTX выглядит особенно впечатляюще, если вспомнить об огромном ценовом разрыве между этими решениями. В следующем тестировании RTX 3090 заслуживает, как минимум, полноценного глубокого сравнения с GPU-сервером на базе одной и двух карт RTX 2080. Отставание RTX 3080 от RTX 3090 вполне объяснимо значительной разницей в объеме памяти — 10 Гбайт против 24 ГБ, на соответственное двух- и трехкратное отставание GTX 1080 Ti также наложила свой отпечаток разница в архитектурах.

Если же посмотреть на эти результаты с практической точки зрения, то есть в плане оценки финансовых расходов на обучение модели в случае аренды GPU-сервера, то чаша весов окончательно склоняется в пользу выбора системы с RTX 3090 — именно эта карта обеспечит наилучший использование бюджета как при недельном, так и при месячном тарифных планах.

Обучение GAN

Во второй тестовой задаче, которая заключалась в тренировке генеративно-состязательной нейронной сети (Generative Adversarial Network, GAN) с пакетом PyTorch, было интересно не только сравнить производительность карт различных поколений, но также отследить влияние состояния флага torch.backends.cudnn.benchmark на финальные результаты. При обучении GAN-архитектуры включение флага в положение True дает прирост производительности, но при этом может пострадать воспроизводимость результатов (Reproducibility).

Полученные результаты еще раз доказывают, что карта RTX 3090 с ее 24 Гбайт памяти GDDR6X представляет собой лучший выбор для решения тяжелых задач по обработке изображений. Как по производительности (выигрыш на 65% по сравнению с RTX 3080), так и по затратам на тренинг модели при аренде GPU-сервера в пересчёте на стоимость тренировки.

RTX 3080 значительно обошла по производительности GTX 1080 Ti, причём с любой установкой флага и несмотря на примерный паритет объема памяти. Однако следует помнить, что при обучении GAN-архитектуры включение флага torch.backends.cudnn.benchmark=True дает прирост производительности, но при этом может пострадать воспроизводимость результатов. причем,

Так что аренда более доступного GPU-сервера с картами GTX 1080 Ti при некоторых условиях может быть вполне разумным выбором — или, как минимум, сравнима по бюджету на тренинги моделей с RTX 3080. К сожалению, на прогон этой сетки через Titan RTX времени уже не оставалось, но с большой вероятностью картина в этом случае осталась бы аналогичной.

Обучение и инференс в vision-задачах

В следующей тестовой задаче по тренингу сетей в vision-задачах производительность видеокарт RTX 3090 и RTX 3080 сравнивалась с возможностями мощнейшего (и все еще очень дорогого) «ветерана» Tesla V100 с 16 Гбайт памяти HBM2.  Было протестировано пять классификационных моделей для обнаружения объектов со следующими тренинговыми установками: model forward + mean (no loss) + backward.

Тестовые задания запускались с применением последней версии фреймворка NVIDIA PyTorch (20.09-py3 от 24 октября). К сожалению, эта версия не собрана под архитектуру Ampere, поэтому для полноценной поддержки видеокарт RTX 3000 пришлось использовать PyTorch версии nightly build, а именно 1.8.0.dev20201017+cu110. У серии RTX 3000 также есть некоторые проблемы с torch.jit, но вопрос полностью снимается при сборке PyTorch под конкретную карту. Во всех тестах PyTorch использовался с автоматическим скриптом Mixed Precision, с включенным по умолчанию флагом torch.backend.cudnn.benchmark = True. 

Стоит упомянуть некоторые нюансы этого сравнения. В частности, была задействована не самая быстрая V100, которая работала внутри виртуальной машины. Из-за этого могли возникнуть некоторые потери, которые, вполне возможно, можно было бы оптимизировать при лучшей настройке. Помимо этого, в процессе тестирования не была задействована вся доступная VRAM, что позволило бы придать расчетам дополнительное ускорение.

Classification Training

Задача обучения сложных моделей нейросетей является профильным заданием для GPU-серверов на картах NVIDIA, позволяя порой на порядки сократить время тренировки алгоритмов глубокого обучения.

В условиях запуска задачи для получения результатов бенчмарка пересылка обнаружения объектов производилась без NMS, а пересылка для обучения не включала сопоставления целей. Иными словами, на практике скорость обучения с большой вероятностью замедлится на 10-20%, а скорость вывода снизится примерно на 20-30%.

Classification Inference

В данном случае инференс — это процесс получения предсказаний посредством прогона изображений через заранее обученную нейронную сеть, который вполне подходит для развертывания на удаленном GPU-сервере.

В целом можно говорить о том, что в заданиях тренировки и инференса сетей в Vision-задачах карта RTX 3090 медленнее Tesla V100 в среднем всего на 15-20%, и это очень впечатляюще — особенно с учетом разницы в цене.

Показателен и тот факт, что отставание RTX 3080 от RTX 3090 относительно невелико — по крайней мере, значительно меньше, чем при выполнении других задач. На практике это означает, что даже со сравнительно небольшим бюджетом, выделенным на аренду GPU-сервера на базе RTX 3080, можно добиться достаточно высокой производительности лишь с небольшим увеличением затрат времени на обработку данных.

Detection Training

Тестирование RetinNet c ResNet50FPN для обнаружения объектов производилось с указанными выше параметрами PyTorch (20.09-py3 от 24 октября), с флагом torch.backend.cudnn.benchmark=True и с тренинговыми установками model forward + mean (no loss) + backward.

Detection Inference

Здесь отставание карт серии RTX30 уже минимально, что говорит о несомненных преимуществах новой архитектуры Ampere для решения подобных задач. Карта RTX 3090 показала себя просто великолепно.

Сравнительно небольшое отставание бюджетной карты говорит о том, что благодаря отличному соотношению цена/возможности RTX 3080 может стать желанным выбором для решения задач прототипирования с экономичным бюджетом. По завершению создания прототипа модель можно масштабировать, развернув, например, на GPU-серверах с картами RTX 3090.

Заключение

По итогам тестирования новых графических решений семейства GeForce RTX 3000 можно с уверенностью утверждать, что компания NVIDIA блестяще справилась с задачей выпуска доступных видеокарт с тензорными ядрами, достаточно производительными для быстрых ИИ-вычислений. В некоторых задачах обучения сетей, таких как работа с разреженными сетями (Sparse network), преимущества архитектуры Ampere над поколением RTX20 позволяют добиться ускорения процесса в два раза.

Преимущества использования GPU-серверов с картами GeForce RTX 3090 особенно очевидны в задачах, где обучение моделей связано с повышенными требованиями к объему памяти — при анализе медицинских снимков, современном моделировании компьютерного зрения и везде, где есть необходимость обработки очень крупных изображений — например, при работе с GAN-архитектурами.

В то же время RTX 3080 с ее 10 Гбайт графической памяти вполне подойдет для работы с задачами глубокого машинного обучения, поскольку для изучения основ большинства архитектур вполне достаточно уменьшить размер сетей или использовать на входе изображения меньшего размера, а затем при необходимости масштабировать модель до необходимых параметров на более мощных GPU-серверах.

С учетом того, что память HBM, применяемая в картах класса A100, вряд ли существенно подешевеет в ближайшее время, можно сказать, что карты RTX 3090 / RTX 3080 являются вполне эффективной инвестицией на несколько ближайших лет.

Нидерландский хостинг-провайдер HOSTKEY предлагает широкий ассортимент GPU-серверов в дата-центрах в Нидерландах и в Москве на основе как GPU последнего поколения RTX3080 и RTX3090, так и на основе карт предыдущих поколений RTX2080Ti и GTX1080Ti/1080. Компания предлагает как готовые к работе серверы, так и серверы с индивидуальными конфигурациями, которые идеально отвечают потребностям заказчика. Компания благодарит Эмиля Закирова и Александра Широносова за помощь в проведении тестов.

Постоянный URL: http://servernews.ru/1025021
05.11.2020 [18:01], Сергей Карасёв

Серверы ASUS установили более 680 мировых рекордов в тестах SPEC

Компания ASUS объявила о том, что её серверы по состоянию на конец сентября нынешнего года установили в общей сложности 683 рекорда в тестах SPEC — Standard Performance Evaluation Corporation. Оценивалась производительность платформ на процессорах AMD и Intel, включая чипы EPYC 7002 и Xeon Scalable 1-го и 2-го поколений.

Речь идёт о результатах измерений в пакете SPEC CPU 2017: это набор эталонных тестов, позволяющий измерять и сравнивать производительность компьютерных систем при высоких вычислительных нагрузках, а также проводить стресс-тестирование процессоров, подсистем памяти и компиляторов.

Сообщается, что серверы ASUS с процессорами AMD EPYC 7002 поставили 213 мировых рекордов. В частности, 167 первых мест в бенчмарках SPEC CPU 2017 принадлежат однопроцессорным системам, ещё 46 — двухпроцессорным. Это рекорды по скорости целочисленных вычислений, вычислений с плавающей запятой и пр. Что касается серверов с процессорами Intel Xeon Scalable 1-го и 2-го поколений, то такие платформы ASUS установили 466 рекордов.

Компания говорит, что высокая производительность серверов ASUS достигается в том числе за счёт системы Performance Boost, состоящей из трёх ключевых компонентов: Core Optimizer, Engine Boost и Workload Presets. Средства Core Optimizer увеличивают тактовую частоту процессора при выполнении многопоточных операций и снижают задержки. Инструмент Engine Boost оптимизирует питание, что позволяет увеличить общую производительность. Наконец, Workload Presets — это предустановленные профили BIOS для повышения энергоэффективности и производительности на пиковой тактовой частоте.

Постоянный URL: http://servernews.ru/1024671
01.04.2020 [21:27], Андрей Созинов

1- и 2-сокетные серверы ASUS установили почти 600 рекордов в тестах SPEC

Компания ASUS объявила о том, что её серверным системам принадлежит наибольшее число мировых рекордов производительности в бенчмарках SPEC.Если точнее, то продукты тайваньской компании по состоянию на 4 марта 2020 года смогли установить 578 рекордов, что несомненно является впечатляющим результатом.

Рекордных результатов компании ASUS помогли добиться серверные продукты для различных платформ: Intel Xeon Scalable 1-го и 2-го поколения, Intel Xeon E-2200 и AMD EPYC 7002.

Системы ASUS на этих чипах используются для самых разных задач, включая корпоративные, анализ данных, глубокое обучение и искусственный интеллект, HPC и других, говорится в релизе. 

Серверным системам ASUS с процессорами AMD EPYC 7002 (Rome) принадлежит 102 мировых рекорда в бенчмарках SPEC CPU 2017. Из них 64 первых места у однопроцессорных платформ RS500A-E10, о которых мы уже писали. Ещё 38 рекордов установили двухпроцессорные системы. Среди достижений можно выделить рекорды по скорости целочисленных вычислений и вычислений с плавающей запятой.

Ещё 192 рекорда установили системы ASUS ESC8000 G4, которые базируются на процессорах Xeon Scalable 1-го и 2-го поколения и могут включать в себя до восьми ускорителей вычислений на графических процессорах. Здесь наилучших результатов достигли системы на базе Xeon Platinum 8280L.

Наконец, серверные платформы ASUS RS300 на процессорах Xeon E-2200 смогла обеспечить тайваньскому производителю ещё 96 рекордов в различных тестах SPEC CPU 2017. Остальные рекорды принадлежат другим системам.

ASUS отмечает, что кроме прочего, высокую производительность её серверным платформам обеспечивает технология Performance Boost. Она позволяет использовать процессор на максимально высокой тактовой частоте, а также обеспечивает возможность тонкой настройки системы в зависимости от типа задач.

Постоянный URL: http://servernews.ru/1007322
24.03.2020 [21:37], Андрей Созинов

СХД китайской Inspur заняла вторую строчку рейтинга бенчмарка SPC-1

Система хранения данных китайской компании Inspur сегодня заняла второе место в рейтинге теста производительности SPC (Storage Performance Council). Тем самым она сместила на третье место СХД другой китайской компании — Huawei.

На первом же месте по-прежнему располагается хранилище от японской Fujitsu.

В тестировании приняла участие All-Flash система хранения данных на базе массивов твердотельных накопителей Inspur AS5600G2. Всего было использовано 16 массивов, на которые в сумме пришлось 400 твердотельных накопителей объёмом 1,92 Тбайт каждый. То есть общий объём хранилища составил 768 Тбайт. За работу СХД отвечало восемь двухконтроллерных систем.

Бенчмарк SPC-1 оценивает производительность систем хранения данных в рабочих нагрузках бизнес-класса со случайным доступом к данным, которые могут быть сжаты и/или дедуплицированы. Система Inspur AS5600G2 смогла продемонстрировать производительность в 7 520 358 IOPS. Тем самым она более чем на полмиллиона IOPS опередила Huawei OceanStor 1800 V3, которая теперь расположена на третьем месте. В свою очередь Fujitsu Eternus DX8900 S4, располагающаяся на первом месте, набрала в SPC-1 более 10 млн IOPS.

Однако обе вышеупомянутые китайские системы имеют куда лучшее соотношение производительности к их стоимости. В системе Fujitsu одна тысяча IOPS обошлась в $644,16, тогда как в Inspur AS5600G2 — всего в $386,50. Идущая следом система Huawei предлагает 1000 IOPS ещё дешевле — за $376,96.

Заметим также, что рейтинг SPC-1 стал площадкой для борьбы китайских производителей, ведь они занимают в нём восемь позиций в Топ-10. Из китайских систем больше всего среди лидеров оказалось решений от Huawei. Неделю назад компания выложила результаты тестирования СХД OceanStor 5310 V5 с SSD

Постоянный URL: http://servernews.ru/1006729
21.02.2020 [18:08], Алексей Степин

Японский институт AIST опубликовал результаты сравнительного тестирования Intel Optane DCPMM и DRAM

Ещё весной прошлого года Intel анонсировала новый тип модулей памяти на базе технологии 3D XPoint — Optane DCPMM. Технология заинтересовала всех, кому нужны большие объемы оперативной памяти, и кто готов при этом мириться с некоторой потерей производительности.

Японский национальный институт передовых технических наук и технологии (AIST) опубликовал результаты сравнительного тестирования DCPMM, в котором эти модули сравнивались с традиционной памятью DRAM.

Модуль DCPMM объёмом 128 Гбайт. Фото StorageReview.

Модуль DCPMM объёмом 128 Гбайт. Фото StorageReview.

В отличие от блочных накопителей Optane, существует не так уж много доступных результатов тестирования DCPMM, вот почему данные AIST представляют существенную ценность, о чём говорят и сами авторы проекта.

Для тестирования они использовали инструментарий собственной разработки и вот каких результатов им удалось достичь: при чтении латентность DCPMM составила порядка 374 наносекунд, в режиме случайной записи write-back она возросла до примерно 390 наносекунд.

Пропускная способность при этом составила 38 и 3 Гбайт/с, соответственно. Иными словами, задержки DCPMM примерно в четыре раза выше, нежели у DRAM, однако при этом такие модули способны обеспечить 37% пропускной способности обычной памяти. Это не так уж мало и, во всяком случае, на операциях чтения — намного быстрее любых традиционных блочных накопителей. Также подтвердилась польза от включения чередования (interleaving).

Любопытно, что для точного измерения задержек японским учёным пришлось пойти на ряд ухищрений, поскольку, по их словам, большинство современных архитектур используют предвыборку (prefetch) и внеочередное исполнение (out-of-order execution), что позволяет минимизировать негативные последствия, вызываемые задержками при обращении к оперативной памяти. Полностью ознакомиться с методикой и результатами тестирования можно по этой ссылке.

Постоянный URL: http://servernews.ru/1004263
02.02.2020 [12:17], Владимир Мироненко

Amazon раскритиковала результаты бенчмарка, проведенного Microsoft для AWS и Azure

На минувшей неделе разгорелся конфликт между Amazon Web Services и Microsoft по поводу бенчмарка, проведенного софтверным гигантом.

В последнее время Microsoft публикует впечатляющие данные по облачной базе данных SQL Microsoft Azure и её сообщение в начале декабря вызвало жёсткую реакцию компании Джеффа Безоса. Всё это, напомним, происходит на фоне попыток Amazon отменить контракт между Microsoft и Пентагоном по созданию облака JEDI, которое обойдётся государству в $10 млрд.

«Быстрее и дешевле: SQL в Azure продолжает затмевать AWS», — под таким заголовком Microsoft опубликовала статью, в которой утверждается, что Azure «в 3,4 раза быстрее и на 87 % дешевле, чем AWS EC2». Ссылаясь на данные из профинансированного ею же исследования медиакомпании GigaOm, компания из Редмонда (штат Вашингтон) также заявила, что её облачный сервис для хранения больших массивов данных Azure Ultra Disk превосходит AWS по количеству операций ввода-вывода в секунду (IOPS).

В ответ AWS выполнила собственный бенчмарк TPC-C, используя HammerDB с открытым исходным кодом, который показал, что AWS превосходит в 1,75 раза сервис Microsoft по производительности и имеет 40-процентное преимущество по соотношению цена / качество.

Говоря о проведенном Microsoft бенчмарке, Amazon отметила, что для повышения производительности Azure применила страйпинг, который не использовался в AWS, добавив, что при сравнении двух сервисов был взят инстанс AWS старого поколения, а не самый современный из сопоставимых, что может предложить Amazon. Также Amazon уличила компанию из Редмонда в том, что был применён модифицированный бенчмарк TPC-E, изобилующий проприетарным инструментарием Microsoft. Наконец, в расходах ею не были учтены затраты на лицензирование и программу обслуживания Software Assurance.

Отметим, что Microsoft подстраховалась от возможной критики, указав мелким шрифтом в примечании под результатами исследования, что «фактические результаты и цены могут варьироваться в зависимости от конфигурации и региона».

Постоянный URL: http://servernews.ru/1002777
15.01.2020 [20:58], Игорь Осколков

ScaleMP помогла AMD поставить абсолютные рекорды в SPEC CPU 2017

В августе прошлого года AMD и ScaleMP, поставщик различных систем виртуализации для HPC-решений, официально объявили о сотрудничестве, в рамках которого, в частности, была добавлена поддержка новых серверных процессоров EPYC Rome 7002 в гипервизор vSMP Foundation.

ScaleMP vSMP Foundation, напомним, позволяет объединить множество стандартных серверов x86-64 в высокопроизводительную систему, которая для ОС и ПО выглядит как единый сервер с большим числом ядер и большим же объёмом памяти.

Такой подход упрощает масштабирование нагрузки для ряда приложений и, помимо всего прочего, не требует заметных модификаций кода. В случае AMD EPYC Rome использование vSMP Foundation позволяет объединить до 128 CPU, получив таким образом машину с 8192 ядрами и 256 Тбайт RAM.

И вот, наконец, сотрудничество компаний дало значимые результаты. В бенчмарке SPEC CPU 2017 32-сокетные системы с AMD EPYC 7002 (64/128, 2,0/3,35 ГГц, 256 Мбайт L3) заняли первые места и в целочисленных вычислениях, и в расчётах с плавающей запятой, обогнав предыдущего лидера в примерно на 80%. Им была HPE Superdome Flex на базе 32 процессоров Intel Xeon Platinum 8180 (28/56, 2,5/3,8 ГГц, 38,5 Мбайт L3). Рекорд этой системы продержался ровно два года.

Для теста AMD EPYC Rome и vSMP Foundation использовались серверы Supermicro A+ Server 2123BT-HNC0R: 2U, 4 узла, 2 CPU в каждом узле.

Постоянный URL: http://servernews.ru/1001523
17.12.2019 [13:26], Алексей Степин

Cockroach Labs сравнила облачные сервисы AWS, Azure и Google Cloud

Популярность облачных сервисов очень высока, но неправильно выбранная услуга может оказаться недостаточно производительной, поэтому сравнительные тесты очень важны.

Такие тесты компания Cockroach Labs проводит с 2017 года, и недавно был опубликован новый отчёт, содержащий любопытные данные, могущие помочь в выборе нужной услуги.

Сводный рейтинг производительности. Azure вступает в игру

Сводный рейтинг производительности. Azure вступает в игру

Для тестирования компания применяет базу данных CockroachDB собственной разработки. Для оценки OLTP-производительности используется тест TPC-C, измеряющий количество транзакций за единицу времени. Однако оценивается также пропускная способность сети и её задержки (iPerf и ping), производительность подсистем хранения данных (sysbench). Для успешного прохождения теста время отклика не должно превышать 5 секунд.

Удельная производительность. Не всегда самое быстрое ‒ самое выгодное

Удельная производительность. Не всегда самое быстрое ‒ самое выгодное

В результатах тестирования 2018 года AWS превзошла конкурента в лице Google Cloud Platform на 40%, но в новом отчёте можно видеть, что отрыв сократился до минимального; кроме того, в игру вступил сервис Microsoft Azure, показавший в конфигурации Standard_DS14_v2 вполне достойный результат и занявший второе место.

Предельная производительность у всех трёх провайдеров весьма близка

Предельная производительность у всех трёх провайдеров весьма близка

Cockroach Labs уделяет серьёзное внимание и удельной производительности ‒ далеко не всегда выигрыш в чистой производительности может быть оправдан двух- или трёхкратной разницей в цене. Первенство в этой категории достаточно прочно удерживает Google Cloud Platform, хотя отрыв от AWS и невелик.

А вот результаты Azure не впечатляют ‒ машина Standard_F16s хотя и не слишком дорога, но занимает предпоследнее место по производительности, а DS14_v2 явно менее выгодна, нежели предложение AWS. Однако стоит учесть, что цены для рейтинга удельной производительности взяты официальные. В зависимости от масштабов заказа могут действовать различные скидки.

Полный отчет Cockroach Labs можно найти в публичном репозитории, а также скачать с её сайта. 

Постоянный URL: http://servernews.ru/999899
06.11.2019 [21:21], Алексей Степин

Serve The Home: Intel-бенчмарки Xeon Platinum 9282 vs. EPYC 7742 в GROMACS некорректны [Обновлено]

Каждый производитель аппаратного обеспечения, будь то графические ускорители или процессоры, стремится представить свои решения в наиболее выгодном свете. Но иногда применяемые для этого методы трудно назвать корректными.

Издание Serve The Home (STH) считает, что опубликованные вчера результаты сравнительного тестирования процессоров Intel Xeon Platinum 9282 и AMD EPYC 7742 в реальных задачах не являются в полной мере объективными. И это мнение имеет под собой достаточно веские основания.

Intel утверждает, что система с двумя Xeon Platinum 9282 быстрее аналогичной платформы на базе AMD EPYC 7742 более чем на 30%. Однако, по мнению STH, результаты, показанные в одном из тестов, а конкретно в пакете GROMACS, нельзя назвать полностью корректными.

Во-первых, в тестировании был использован GROMACS версии 2019.3, который корректно работает со вторым поколением Xeon Scalable, но не умеет определять архитектуру AMD Rome (Zen 2) и правильно пользоваться её возможностями. Такая поддержка появилась только в GROMACS 2019.4, который вышел в начале октября. 

Во-вторых, значимые отличия были обнаружены в конфигурации тестовых систем. На обоих платформы был включен SMT, но для AMD суммарное количество потоков GROMACS составило 128, по количеству процессорных ядер, а вот в системе с Xeon  их было уже 224. Впрочем, по словам STH, у GROMACS действительно есть проблемы при работе на системах со слишком большим числом потоков, и даже с двумя 7742 это может быть непросто. 

В-третьих, разными были настройки суб-кластеризации NUMA и турбо-частот. Последние были включены для EPYC и отключены у Xeon, хотят тут оценить реальную степень влияния на результат трудно. Переключение с/на AVX-512 в ходе работы может влиять на турбо-частоты и общую производительность. Что касатеся NUMA, то, по данным STH, для EPYC суммарно получилось 8 доменов, а для Xeon — 4. Разбивка на домены обычно позволяет ускорить общение памяти с ядрами, так что выбор такого разделения неоднозначен. 

В итоге Intel удалось добиться победы, но превосходство составило всего 20%. STH приводит и другие различия в условиях тестирования, но, кажется, ключевым было именно использование не самой актуальной версии ПО. Как обычно, от программной оптимизации и тонкой настройки платформ производительность зависит куда сильнее, нежели от простого количества ядер. Не исключено, что сами тесты были сделаны давным-давно, но сумели погрязнуть в бесконечных корпоративных согласованиях.

Справедливости ради отметим, что и AMD не брезгует подобной тактикой выставления своих продуктов в выгодном свете. На Computex 2019 она показала сравнение будущих чипов Rome с актуальными Xeon в бенчмарке NAMD, не предоставив полного описания условий тестирования. Тут же выяснилось, что компания использовала для CPU Intel неоптимизированную версию ПО. 

UPD 07.11: Intel оперативно отреагировала и опубликовала обновлённые результаты и дала комментарии. Выяснилось, что, во-первых, в исходных тестах GROMACS 2019.3 вручную был собран с поддержкой AVX2 для EPYC. Тем не менее, Intel провела повторный тест с версией 2019.4, в которой эти инструкции задействуются автоматически. Во-вторых, в описании исходного теста закралась опечатка: EPYC использовали два потока бенчмарка на ядро. Правда, всё это существенных изменений в результатах не дало — разница между 2019.3 и 2019.4 составила 1,08%.

Постоянный URL: http://servernews.ru/997093
Система Orphus