Материалы по тегу: gromacs

06.11.2019 [21:21], Алексей Степин

Serve The Home: Intel-бенчмарки Xeon Platinum 9282 vs. EPYC 7742 в GROMACS некорректны [Обновлено]

Каждый производитель аппаратного обеспечения, будь то графические ускорители или процессоры, стремится представить свои решения в наиболее выгодном свете. Но иногда применяемые для этого методы трудно назвать корректными.

Издание Serve The Home (STH) считает, что опубликованные вчера результаты сравнительного тестирования процессоров Intel Xeon Platinum 9282 и AMD EPYC 7742 в реальных задачах не являются в полной мере объективными. И это мнение имеет под собой достаточно веские основания.

Intel утверждает, что система с двумя Xeon Platinum 9282 быстрее аналогичной платформы на базе AMD EPYC 7742 более чем на 30%. Однако, по мнению STH, результаты, показанные в одном из тестов, а конкретно в пакете GROMACS, нельзя назвать полностью корректными.

Во-первых, в тестировании был использован GROMACS версии 2019.3, который корректно работает со вторым поколением Xeon Scalable, но не умеет определять архитектуру AMD Rome (Zen 2) и правильно пользоваться её возможностями. Такая поддержка появилась только в GROMACS 2019.4, который вышел в начале октября. 

Во-вторых, значимые отличия были обнаружены в конфигурации тестовых систем. На обоих платформы был включен SMT, но для AMD суммарное количество потоков GROMACS составило 128, по количеству процессорных ядер, а вот в системе с Xeon  их было уже 224. Впрочем, по словам STH, у GROMACS действительно есть проблемы при работе на системах со слишком большим числом потоков, и даже с двумя 7742 это может быть непросто. 

В-третьих, разными были настройки суб-кластеризации NUMA и турбо-частот. Последние были включены для EPYC и отключены у Xeon, хотят тут оценить реальную степень влияния на результат трудно. Переключение с/на AVX-512 в ходе работы может влиять на турбо-частоты и общую производительность. Что касатеся NUMA, то, по данным STH, для EPYC суммарно получилось 8 доменов, а для Xeon — 4. Разбивка на домены обычно позволяет ускорить общение памяти с ядрами, так что выбор такого разделения неоднозначен. 

В итоге Intel удалось добиться победы, но превосходство составило всего 20%. STH приводит и другие различия в условиях тестирования, но, кажется, ключевым было именно использование не самой актуальной версии ПО. Как обычно, от программной оптимизации и тонкой настройки платформ производительность зависит куда сильнее, нежели от простого количества ядер. Не исключено, что сами тесты были сделаны давным-давно, но сумели погрязнуть в бесконечных корпоративных согласованиях.

Справедливости ради отметим, что и AMD не брезгует подобной тактикой выставления своих продуктов в выгодном свете. На Computex 2019 она показала сравнение будущих чипов Rome с актуальными Xeon в бенчмарке NAMD, не предоставив полного описания условий тестирования. Тут же выяснилось, что компания использовала для CPU Intel неоптимизированную версию ПО. 

UPD 07.11: Intel оперативно отреагировала и опубликовала обновлённые результаты и дала комментарии. Выяснилось, что, во-первых, в исходных тестах GROMACS 2019.3 вручную был собран с поддержкой AVX2 для EPYC. Тем не менее, Intel провела повторный тест с версией 2019.4, в которой эти инструкции задействуются автоматически. Во-вторых, в описании исходного теста закралась опечатка: EPYC использовали два потока бенчмарка на ядро. Правда, всё это существенных изменений в результатах не дало — разница между 2019.3 и 2019.4 составила 1,08%.

Постоянный URL: http://servernews.ru/997093
16.08.2017 [12:28], Алексей Степин

Новый чип ускорит и удешевит расчёты молекулярной динамики

Современная вычислительная техника уже достигла того уровня, когда возможна полноценная симуляция поведения молекул вещества. Но такая симуляция требует чудовищных вычислительных мощностей, которые, в свою очередь, влекут за собой чудовищные энергетические затраты, поэтому разработчики постоянно ищут новые пути и предлагают новые архитектуры. Так, специализированные ускорители, разработанные D.E. Shaw Research, успешно работают в суперкомпьютерах серии Anton. Рассматриваются и другие пути, такие, как использование графических ускорителей или даже многоядерных процессоров общего назначения, например, Intel Knights Landing.

Кластер Anton, 512 узлов

Кластер Anton, 512 узлов

В настоящее время ведутся работы по созданию специализированного процессора для расчётов молекулярной динамики, в основе которого будет лежать принцип MapReduce. Разработками занимается группа учёных из Политехнического университета Бухареста (Румыния) и Колледжа Святого Ансельма (США). Сейчас ускорители общего назначения могут справиться с 75 % задач, в частности, с наиболее популярным в этой области пакетом GROMACS, но исследователям удалось ускорить и оставшиеся 25 % с применением нового ускорителя. Прототип смог показать 64-процентную эффективность распараллеливания при расчёте повторяющихся клеточных структур.

Эффективность нового ускорителя впечатляет даже в реализации ПЛИС

Эффективность нового ускорителя впечатляет даже в реализации ПЛИС

Архитектура нового ускорителя, пока реализованного в виде ПЛИС, в целом, схожа с архитектурой чипов Anton, при этом последние являют собой специализированные ASIC, которые лишь в три раза эффективнее ПЛИС-версии новой разработки. Если её также выполнить в виде специализированного чипа с частотой 2,7 ГГц, то производительность окажется выше, а уровень энергопотребления — намного ниже, нежели у решения D.E. Shaw Research. По уровню удельной производительности новинка занимает первое место даже сейчас, а в окончательном варианте выигрыш составит до 300 раз.

Постоянный URL: http://servernews.ru/957004
Система Orphus